更新时间:2024-10-22 GMT+08:00
分享

使用llm-compressor工具量化

当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。

本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重,然后在NPU的机器上实现推理量化。

具体操作如下:

  1. 开始之前,请确保安装了以下库:
    git clone https://github.com/vllm-project/llm-compressor.git
    cd llm-compressor
    pip install -e .
  2. 修改examples/quantizing_moe/deepseek_moe_w8a8_int8.py中的代码:

    1)若本地已有权重,请将MODEL_ID修改为权重路径;

    MODEL_ID = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct"
    2)若量化Deepseek-V2-236B模型,请将num_gpus改为8;
    device_map = calculate_offload_device_map(
        MODEL_ID,
        reserve_for_hessians=True,
        num_gpus=8,
        torch_dtype=torch.bfloat16,
        trust_remote_code=True,
    )
    3)为减少量化时间,建议将以下参数设置为512;
    NUM_CALIBRATION_SAMPLES = 512
  3. 执行权重量化:
    python deepseek_moe_w8a8_int8.py

1、执行权重量化过程中,请保证使用的GPU卡上没有其他进程,否则可能出现OOM;

2、若量化Deepseek-v2-236b模型,大致需要10+小时。

相关文档