在线服务智能运维(HRA插件)
场景描述
智能运维(HRA 插件)核心解决大模型部署 P/D 配比不合理问题,适配大规模推理、跨节点部署、负载均衡等高复杂度场景,典型适用场景如下:
- 大模型高并发推理场景
大模型推理分为推理单元(P)和解码单元(D),业务高峰期易出现 P/D 配比失衡,导致资源利用率低、响应延迟高、吞吐量不足。智能运维通过仿真算法给出最优配比建议,手动调整后可提升资源利用率、降低延迟、提升服务吞吐量。
- 资源容量固定下的性能优化场景
资源池硬件规格(GPU/CPU/ 内存)固定,无法扩容时,通过智能运维推荐最优 P/D 配比,在现有资源上限内最大化推理性能,避免资源浪费或性能瓶颈。
- 多版本模型迭代调优场景
同一服务下多部署、多模型版本并行时,不同模型对 P/D 配比需求不同。智能运维可针对各模型资产标签,给出专属配比建议,适配不同模型的算力需求,保障多版本服务稳定运行。
- 精细化资源管控场景
需精准控制推理实例资源分配,避免过度扩容导致成本增加,或资源不足引发服务异常。智能运维提供实时配比推荐,替代传统人工经验配置,实现精细化、科学化资源调度。
约束限制
- 资源池限制:仅安装HRA插件的物理专属资源池支持智能运维功能;公共资源池、未安装HRA插件的专属资源池不支持该能力。
- 模型资产限制:在线服务部署的模型资产,必须带有“弹性配比推荐”标签,无此标签的模型无法触发智能运维监测与推荐。目前仅ModelArts平台预置模型资产支持此功能,用户自定义模型不支持。
- 功能依赖限制:智能运维为手动辅助调优能力,不依赖自动扩缩容功能;需手动根据推荐值调整 P/D 配比,不支持自动调整实例配比。
- 适用范围限制:仅适配大模型跨节点部署、P/D 分离架构的推理服务;简单小模型、单节点部署服务无 P/D 配比概念,不适用该功能。
- 单元名称限制:当前算法仅支持监测 "prefill"、"decode" 推理单元配比,且该名称为唯一指标采集依据,请勿修改单元名称,否则将导致数据采集异常。
前提条件
- 在线服务已部署在安装 HRA 插件的物理专属资源池,服务状态为 “运行中”。如何查看专属池是否安装HRA插件,请参见查看资源池插件操作。
- 部署的模型资产带有“弹性配比推荐”标签。
配置操作
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。
- 单击目标在线服务名称,进入服务详情页。在详情页导航栏切换至“智能运维”页签,进入智能运维配置界面。
- 开启“监测”开关,配置监测算法参数后,系统会自动基于实时运行指标、仿真算法计算,展示最优 P/D 配比推荐值。
- 根据提示单击“去优化”按钮,查看系统提供的优化建议,单击“应用”,完成智能运维配比调优。