使用llm-compressor工具量化
当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。
本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重,然后在NPU的机器上实现推理量化。
具体操作如下:
- 开始之前,请确保安装了以下库:
git clone https://github.com/vllm-project/llm-compressor.git cd llm-compressor pip install -e .
- 修改examples/quantizing_moe/deepseek_moe_w8a8_int8.py中的代码:
MODEL_ID = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct"
2)如果量化Deepseek-V2-236B模型,请将num_gpus改为8;device_map = calculate_offload_device_map( MODEL_ID, reserve_for_hessians=True, num_gpus=8, torch_dtype=torch.bfloat16, trust_remote_code=True, )
3)为减少量化时间,建议将以下参数设置为512;NUM_CALIBRATION_SAMPLES = 512
- 执行权重量化:
python deepseek_moe_w8a8_int8.py
1、执行权重量化过程中,请保证使用的GPU卡上没有其他进程,否则可能出现OOM;
2、如果量化Deepseek-v2-236b模型,大致需要10+小时。