使用llm-compressor工具量化

当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。

本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重，然后在NPU的机器上实现推理量化。

具体操作如下：

开始之前，请确保安装了以下库：

git clone https://github.com/vllm-project/llm-compressor.git
cd llm-compressor
pip install -e .

1、执行权重量化过程中，请保证使用的GPU卡上没有其他进程，否则可能出现OOM；

2、若量化Deepseek-v2-236b模型，大致需要10+小时。

使用量化模型需要在NPU的机器上运行。

启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。

父主题： 推理模型量化

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

7*24