在线服务智能运维（HRA插件）

智能运维（HRA 插件）核心解决大模型部署 P/D 配比不合理问题，适配大规模推理、跨节点部署、负载均衡等高复杂度场景，典型适用场景如下：

大模型高并发推理场景
大模型推理分为推理单元（P）和解码单元（D），业务高峰期易出现 P/D 配比失衡，导致资源利用率低、响应延迟高、吞吐量不足。智能运维通过仿真算法给出最优配比建议，手动调整后可提升资源利用率、降低延迟、提升服务吞吐量。
资源容量固定下的性能优化场景
资源池硬件规格（GPU/CPU/ 内存）固定，无法扩容时，通过智能运维推荐最优 P/D 配比，在现有资源上限内最大化推理性能，避免资源浪费或性能瓶颈。
多版本模型迭代调优场景
同一服务下多部署、多模型版本并行时，不同模型对 P/D 配比需求不同。智能运维可针对各模型资产标签，给出专属配比建议，适配不同模型的算力需求，保障多版本服务稳定运行。
精细化资源管控场景
需精准控制推理实例资源分配，避免过度扩容导致成本增加，或资源不足引发服务异常。智能运维提供实时配比推荐，替代传统人工经验配置，实现精细化、科学化资源调度。

资源池限制：仅安装HRA插件的物理专属资源池支持智能运维功能；公共资源池、未安装HRA插件的专属资源池不支持该能力。
模型资产限制：在线服务部署的模型资产，必须带有“弹性配比推荐”标签，无此标签的模型无法触发智能运维监测与推荐。目前仅ModelArts平台预置模型资产支持此功能，用户自定义模型不支持。
功能依赖限制：智能运维为手动辅助调优能力，不依赖自动扩缩容功能；需手动根据推荐值调整 P/D 配比，不支持自动调整实例配比。
适用范围限制：仅适配大模型跨节点部署、P/D 分离架构的推理服务；简单小模型、单节点部署服务无 P/D 配比概念，不适用该功能。
单元名称限制：当前算法仅支持监测 "prefill"、"decode" 推理单元配比，且该名称为唯一指标采集依据，请勿修改单元名称，否则将导致数据采集异常。