文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练推理/ 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）/ 在推理生产环境中部署推理服务

更新时间：2024-09-14 GMT+08:00

查看PDF

在推理生产环境中部署推理服务

本章节介绍如何在ModelArts的推理生产环境（ModelArts控制台的在线服务功能）中部署推理服务。

Step1 准备模型文件和权重文件

在OBS桶中，创建文件夹，准备ascend_vllm代码包、模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。

ascend_vllm代码包在Step9 构建推理代码已生成。
模型权重文件获取地址请参见表1。
推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。
SSL证书制作包含cert.pem和key.pem，需自行生成。生成方式请参见•通过openssl创建SSLpem证书。

图1 准备模型文件和权重文件

创建推理脚本文件run_vllm.sh
run_vllm.sh脚本内容如下。
```
source /home/ma-user/.bashrc
export ASCEND_RT_VISIBLE_DEVICES=${ASCEND_RT_VISIBLE_DEVICES}
export PYTHONPATH=$PYTHONPATH:/home/mind/model/ascend_vllm

cd /home/mind/model/ascend_vllm/
python /home/mind/model/ascend_vllm/vllm/entrypoints/api_server.py --model="${model_path}" --ssl-keyfile="/home/mind/model/key.pem" --ssl-certfile="/home/mind/model/cert.pem" --tensor-parallel-size 1 --gpu-memory-utilization 0.95 --max-model-len=4096 --trust-remote-code --dtype="float16"  --host=0.0.0.0 --port=8080
```
参数说明：
- ${ASCEND_RT_VISIBLE_DEVICES}：使用的NPU卡，单卡设为0即可，4卡可设为0,1,2,3。
- ${model_path}：模型路径，填写为/home/mind/model/权重文件夹名称，如：home/mind/model/chatglm3-6b。
- --tensor-parallel-size：并行卡数。
- --hostname：服务部署的IP，使用本机IP 0.0.0.0。
- --port：服务部署的端口8080。
- --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明。
- --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。
- --trust-remote-code：是否相信远程代码。
- --dtype：模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。
- 其他参数可以根据实际情况进行配置，也可使用openai接口启动服务。
- 推理启动脚本必须名为run_vllm.sh，不可修改其他名称。
- hostname和port也必须分别是0.0.0.0和8080不可更改。

Step2 部署模型

在ModelArts控制台的AI应用管理模块中，将模型部署为一个AI应用。

登录ModelArts控制台，单击“资产管理 > AI应用 > 创建”，开始创建AI应用。
设置创建AI应用的相应参数。此处仅介绍关键参数，设置AI应用的详细参数解释请参见从OBS中选择元模型。
- 根据需要自定义应用的名称和版本。
- 模型来源选择“从对象存储服务（OBS）中选择”，元模型选择转换后模型的存储路径，AI引擎选择“Custom”，引擎包选择准备镜像中上传的推理镜像。
- 系统运行架构选择“ARM”。
图2 设置AI应用
单击“立即创建”开始AI应用创建，待应用状态显示“正常”即完成AI应用创建。

若权重文件大于60G，创建AI应用会报错，提示模型大于60G，请提工单扩容。

Step3 部署在线服务

将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。

在ModelArts控制台，单击“模型部署 > 在线服务 > 部署”，开始部署在线服务。
设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专属资源池，计算节点规格选择snt9b，部署超时时间建议设置为40分钟。此处仅介绍关键参数，更多详细参数解释请参见部署在线服务。
图3 部署在线服务
单击“下一步”，再单击“提交”，开始部署服务，待服务状态显示“正常”服务部署完成。
图4 服务部署完成

Step4 调用在线服务

进入在线服务详情页面，选择“预测”，设置请求路径：“/generate”，输入预测代码“{"prompt": "你好", "temperature":0, "max_tokens":20}”，单击“预测”既可看到预测结果。在线服务的更多内容介绍请参见文档查看服务详情。

图5 预测

Step5 推理服务高阶配置（可选）

如需开启以下高阶配置，请在•创建推理脚本文件run_vllm.sh章节创建的推理脚本run_vllm.sh中增加需要开启的高阶配置。

词表切分
 在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。
```
export USE_VOCAB_PARALLEL=1
```
关闭词表切分的命令：
```
unset USE_VOCAB_PARALLEL
```
配置后重启推理服务生效。

Matmul_all_reduce融合算子
 使用Matmul_all_reduce融合算子能提升全量推理性能，该算子对驱动和固件版本要求较高，默认不开启。如需开启，配置以下环境变量。
```
export USE_MM_ALL_REDUCE_OP=1
```
关闭Matmul_all_reduce融合算子的命令：
```
unset  USE_MM_ALL_REDUCE_OP
```
配置后重启推理服务生效。

查看详细日志
 查看详细耗时日志可以辅助定位性能瓶颈，但会影响推理性能。如需开启，配置以下环境变量。
```
export DETAIL_TIME_LOG=1
export RAY_DEDUP_LOGS=0
```
关闭详细日志命令：
```
unset  DETAIL_TIME_LOG
```
配置后重启推理服务生效。

Step6 推理性能和精度测试

推理性能和精度测试操作请参见推理性能测试和推理精度测试。

父主题： 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

上一篇：在Notebook调试环境中部署推理服务

下一篇：推理精度测试

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

在推理生产环境中部署推理服务

Step1 准备模型文件和权重文件

Step2 部署模型

Step3 部署在线服务

Step4 调用在线服务

Step5 推理服务高阶配置（可选）

Step6 推理性能和精度测试

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线