在推理生产环境中部署推理服务
本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。
Step1 准备模型文件和权重文件
在OBS桶中,创建文件夹,准备ascend_vllm代码包、模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。
- ascend_vllm代码包在Step9 构建推理代码已生成。
- 模型权重文件获取地址请参见表1。
- 推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。
- SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。
- 创建推理脚本文件run_vllm.sh
run_vllm.sh脚本内容如下。
source /home/ma-user/.bashrc export ASCEND_RT_VISIBLE_DEVICES=${ASCEND_RT_VISIBLE_DEVICES} export PYTHONPATH=$PYTHONPATH:/home/mind/model/ascend_vllm cd /home/mind/model/ascend_vllm/ python /home/mind/model/ascend_vllm/vllm/entrypoints/api_server.py --model="${model_path}" --ssl-keyfile="/home/mind/model/key.pem" --ssl-certfile="/home/mind/model/cert.pem" --tensor-parallel-size 1 --gpu-memory-utilization 0.95 --max-model-len=4096 --trust-remote-code --dtype="float16" --host=0.0.0.0 --port=8080
参数说明:
- ${ASCEND_RT_VISIBLE_DEVICES}:使用的NPU卡,单卡设为0即可,4卡可设为0,1,2,3。
- ${model_path}:模型路径,填写为/home/mind/model/权重文件夹名称,如:home/mind/model/chatglm3-6b。
- --tensor-parallel-size:并行卡数。
- --hostname:服务部署的IP,使用本机IP 0.0.0.0。
- --port:服务部署的端口8080。
- --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”;如果设置过大,会占用过多显存,影响kvcache的空间。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明。
- --gpu-memory-utilization:NPU使用的显存比例,复用原vLLM的入参名称,默认为0.9。
- --trust-remote-code:是否相信远程代码。
- --dtype:模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。
- 其他参数可以根据实际情况进行配置,也可使用openai接口启动服务。
- 推理启动脚本必须名为run_vllm.sh,不可修改其他名称。
- hostname和port也必须分别是0.0.0.0和8080不可更改。
Step2 部署模型
在ModelArts控制台的AI应用管理模块中,将模型部署为一个AI应用。
- 登录ModelArts控制台,单击“资产管理 > AI应用 > 创建”,开始创建AI应用。
- 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。
- 根据需要自定义应用的名称和版本。
- 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。
- 系统运行架构选择“ARM”。
图2 设置AI应用
- 单击“立即创建”开始AI应用创建,待应用状态显示“正常”即完成AI应用创建。
若权重文件大于60G,创建AI应用会报错,提示模型大于60G,请提工单扩容。
Step3 部署在线服务
将Step2 部署模型中创建的AI应用部署为一个在线服务,用于推理调用。
- 在ModelArts控制台,单击“模型部署 > 在线服务 > 部署”,开始部署在线服务。
- 设置部署服务名称,选择Step2 部署模型中创建的AI应用。选择专属资源池,计算节点规格选择snt9b,部署超时时间建议设置为40分钟。此处仅介绍关键参数,更多详细参数解释请参见部署在线服务。
图3 部署在线服务
- 单击“下一步”,再单击“提交”,开始部署服务,待服务状态显示“正常”服务部署完成。
图4 服务部署完成
Step4 调用在线服务
进入在线服务详情页面,选择“预测”,设置请求路径:“/generate”,输入预测代码“{"prompt": "你好", "temperature":0, "max_tokens":20}”,单击“预测”即可看到预测结果。在线服务的更多内容介绍请参见文档查看服务详情。
Step5 推理服务高阶配置(可选)
如需开启以下高阶配置,请在•创建推理脚本文件run_vllm.sh章节创建的推理脚本run_vllm.sh中增加需要开启的高阶配置。
- 词表切分
在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。
export USE_VOCAB_PARALLEL=1
关闭词表切分的命令:
unset USE_VOCAB_PARALLEL
配置后重启推理服务生效。