文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练推理/ 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）/ 推理模型量化/ 使用AWQ量化工具转换权重

更新时间：2024-10-12 GMT+08:00

查看PDF

使用AWQ量化工具转换权重

AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。

本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。

量化方法：W4A16 per-group/per-channel, W8A16 per-channel

Step1 模型量化

可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。

方式一：从开源社区下载发布的AWQ量化模型。

https://huggingface.co/models?sort=trending&search=QWEN+AWQ

方式二：使用AutoAWQ量化工具进行量化。

1、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。

pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上
python examples/quantize.py --model-path /home/ma-user/llama-2-7b/ --quant-path /home/ma-user/llama-2-7b-awq/ --calib-data /home/ma-user/mit-han-lab/pile-val-backup --group-size 128 --w-bit 4

参数说明:

--model-path：原始模型权重路径。

--quan-path：转换后权重保存路径。
--group-size：量化group size参数，指定-1时为per-channel权重量化，W4A16支持128和-1，W8A16支持-1。
--w-bit：量化比特数，W4A16设置4，W8A16设置8。
--calib-data：数据集路径，推荐使用：https://huggingface.co/datasets/mit-han-lab/pile-val-backup，注意需指定到val.jsonl的上一级目录。
详细说明可以参考vLLM官网：https://docs.vllm.ai/en/latest/quantization/auto_awq.html。

Step2 权重格式离线转换（可选）

AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：

进入llm_tools/AutoAWQ代码目录下执行以下脚本：

执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

python convert_awq_to_npu.py --model /home/ma-user/Qwen1.5-72B-Chat-AWQ

参数说明：

model：模型路径。

Step3 启动AWQ量化服务

参考Step3 启动推理服务，在启动服务时添加如下命令。

 --q awq 或者--quantization awq

父主题： 推理模型量化

上一篇：推理模型量化

下一篇：使用SmoothQuant量化工具转换权重

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

使用AWQ量化工具转换权重

Step1 模型量化

Step2 权重格式离线转换（可选）

Step3 启动AWQ量化服务

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线