更新时间:2024-06-24 GMT+08:00
分享

在推理生产环境中部署推理服务

本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。

Step1 准备模型文件和权重文件

在OBS桶中,创建文件夹,准备ascend_vllm代码包、模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。

图1 准备模型文件和权重文件
  • 创建推理脚本文件run_vllm.sh
    run_vllm.sh脚本内容如下。
    source /home/ma-user/.bashrc
    export ASCEND_RT_VISIBLE_DEVICES=${ASCEND_RT_VISIBLE_DEVICES}
    export PYTHONPATH=$PYTHONPATH:/home/mind/model/ascend_vllm
    
    cd /home/mind/model/ascend_vllm/
    python /home/mind/model/ascend_vllm/vllm/entrypoints/api_server.py --model="${model_path}" --ssl-keyfile="/home/mind/model/key.pem" --ssl-certfile="/home/mind/model/cert.pem" --tensor-parallel-size 1 --gpu-memory-utilization 0.95 --max-model-len=4096 --trust-remote-code --dtype="float16"  --host=0.0.0.0 --port=8080

    参数说明:

    • ${ASCEND_RT_VISIBLE_DEVICES}:使用的NPU卡,单卡设为0即可,4卡可设为0,1,2,3。
    • ${model_path}:模型路径,填写为/home/mind/model/权重文件夹名称,如:home/mind/model/chatglm3-6b。
    • --tensor-parallel-size:并行卡数。
    • --hostname:服务部署的IP,使用本机IP 0.0.0.0。
    • --port:服务部署的端口8080。
    • --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”;如果设置过大,会占用过多显存,影响kvcache的空间。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
    • --gpu-memory-utilization:NPU使用的显存比例,复用原vLLM的入参名称,默认为0.9。
    • --trust-remote-code:是否相信远程代码。
    • --dtype:模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。
    • 其他参数可以根据实际情况进行配置,也可使用openai接口启动服务。
    • 推理启动脚本必须名为run_vllm.sh,不可修改其他名称。
    • hostname和port也必须分别是0.0.0.0和8080不可更改。

Step2 部署模型

在ModelArts控制台的AI应用管理模块中,将模型部署为一个AI应用。

  1. 登录ModelArts控制台,单击“AI应用管理 > AI应用 > 创建”,开始创建AI应用。
    图2 创建AI应用
  2. 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型
    • 根据需要自定义应用的名称和版本。
    • 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。
    • 系统运行架构选择“ARM”
    图3 设置AI应用
  3. 单击“立即创建”开始AI应用创建,待应用状态显示“正常”即完成AI应用创建。
    图4 创建完成

    若权重文件大于60G,创建AI应用会报错,提示模型大于60G,请提工单扩容。

Step3 部署在线服务

Step2 部署模型中创建的AI应用部署为一个在线服务,用于推理调用。

  1. 在ModelArts控制台中,单击“部署上线 > 在线服务 > 部署”,开始部署在线服务。
    图5 部署在线服务
  2. 设置部署服务名称,选择Step2 部署模型中创建的AI应用;根据实际情况,选择公共资源池或者专属资源池;计算节点规格选择snt9b,部署超时时间建议设置为40分钟。此处仅介绍关键参数,更多详细参数解释请参见部署在线服务
    图6 部署在线服务-公共资源池

    如选择专属资源池,单卡推理可参考如下配置,具体计算节点规格根据实际情况填写。

    图7 部署在线服务-专属资源池
  3. 单击“下一步”,再单击“提交”,开始部署服务,待服务状态显示“正常”服务部署完成。
    图8 服务部署完成

Step4 调用在线服务

进入在线服务详情页面,选择“预测”,设置请求路径:“/generate”,输入预测代码“{"prompt": "你好", "temperature":0, "max_tokens":20}”,单击“预测”既可看到预测结果。在线服务的更多内容介绍请参见文档查看服务详情

图9 预测

Step5 推理服务高阶配置(可选)

如需开启以下高阶配置,请在•创建推理脚本文件run_vllm.sh章节创建的推理脚本run_vllm.sh中增加需要开启的高阶配置。

  • 词表切分

    在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。

    export USE_VOCAB_PARALLEL=1

    关闭词表切分的命令:

    unset USE_VOCAB_PARALLEL

    配置后重启推理服务生效。

  • Matmul_all_reduce融合算子

    使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。

    export USE_MM_ALL_REDUCE_OP=1

    关闭Matmul_all_reduce融合算子的命令:

    unset  USE_MM_ALL_REDUCE_OP

    配置后重启推理服务生效。

  • 查看详细日志

    查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量。

    export DETAIL_TIME_LOG=1
    export RAY_DEDUP_LOGS=0

    关闭详细日志命令:

    unset  DETAIL_TIME_LOG

    配置后重启推理服务生效。

Step6 推理性能和精度测试

推理性能和精度测试操作请参见推理性能测试推理精度测试

分享:

    相关文档

    相关产品