使用SmoothQuant量化

更新时间：2024-11-21 GMT+08:00

查看PDF

SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。

本章节介绍如何使用SmoothQuant量化工具实现推理量化。

SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

代码目录如下:

AutoSmoothQuant  #量化工具
         ├── ascend_autosmoothquant_adapter  # 昇腾量化使用的算子模块
         ├── autosmoothquant                 # 量化代码
         ├── build.sh                        # 安装量化模块的脚本
          ...

具体操作如下：

配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。
```
export ASCEND_RT_VISIBLE_DEVICES=0,1
```
说明：

NPU卡编号可以通过命令npu-smi info查询。
执行权重转换。
```
cd autosmoothquant/examples/
python smoothquant_model.py --model-path /home/ma-user/llama-2-7b/ --quantize-model --generate-scale --dataset-path /data/nfs/user/val.jsonl --scale-output scales/llama2-7b.pt --model-output quantized_model/llama2-7b --per-token --per-channel
```
参数说明:
- --model-path：原始模型权重路径。
- --quantize-model：体现此参数表示会生成量化模型权重。不需要生成量化模型权重时，不体现此参数
- --generate-scale：体现此参数表示会生成量化系数，生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。
- --dataset-path：数据集路径，推荐使用：https://huggingface.co/datasets/mit-han-lab/pile-val-backup/resolve/main/val.jsonl.zst。
- --scale-output：量化系数保存路径。
- --scale-input：量化系数输入路径，若之前已生成过量化系数，则可指定该参数，跳过生成scale的过程。
- --model-output：量化模型权重保存路径。
- --smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。
- --per-token：激活值量化方法，若指定则为per-token粒度量化，否则为per-tensor粒度量化。
- --per-channel：权重量化方法，若指定则为per-channel粒度量化，否则为per-tensor粒度量化。
启动smoothQuant量化服务。
参考步骤六启动推理服务，启动推理服务时添加如下命令。
```
-q smoothquant 或者 --quantization smoothquant
--dtype=float16
```

父主题： 推理模型量化

上一篇：使用AWQ量化

下一篇：使用kv-cache-int8量化

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

使用SmoothQuant量化

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈