在线服务推理的预测性能相比轻算力节点部署有所下降

问题现象

用户使用ModelArts部署服务后进行性能压测时，部分性能指标可能略低于用户使用轻算力节点进行部署。

原因分析

由于影响推理性能的因素很多，平台无法对模型推理性能（如时延、吞吐量）做出统一的对外 SLA 承诺。ModelArts提供的模型部署功能支持高可用部署与弹性扩缩容等功能。为支持主流负载均衡算法、高可用调度分发等功能，平台在预测链路上有多个高可靠的组件，因此相比与轻算力节点直通的方式，平台链路叠加的时延不可避免。此外ModelArts推理平台场景的机器参数配置与轻算力节点上部署的机器参数配置不会完全一致，因此将两者性能进行对比缺乏基础。

处理方法

您可通过以下方式保障服务稳定性与性能表现：

部署即可见性能：通过在线推理的控制台，可实时监控，支持如下指标的监控：
- NPU/GPU 利用率、显存占用
- Token性能、请求时延相关指标

弹性伸缩保障：支持按资源CPU内存利用率自动扩容，避免服务雪崩。
多部署分流：通过多部署的方式，可以灰度分流，多池负载提高可靠性。
配置合适的智能路由策略：结合自身的话务模型，配置合适的智能路由策略：可选择轮询、优先最小连接数等多种请求分发规则分配推理请求，从而优化负载均衡和服务性能。
优化引擎支持：集成 vLLM显著提升吞吐与降低延迟。

父主题： 服务预测

上一篇：在线服务预测请求超时

下一篇：模型配置