在ModelArts平台查看在线服务性能指标
场景描述
ModelArts 推理监控是针对在线推理服务的全链路可观测能力,覆盖资源层、网络层、请求层、模型推理层四大维度,实时采集服务运行数据并可视化呈现,支持性能诊断、异常告警、容量规划,保障 AI 服务稳定高效运行。
支持的监控维度和指标分类如表1所示。
| 核心监控维度 | 核心监控指标 |
|---|---|
| 资源利用率监控 | CPU / 内存:实时采集推理实例的 CPU 使用率、Core 数、内存使用率、内存使用量(MB),反映实例基础资源负载。 GPU / NPU(异构资源):采集 GPU/NPU 使用率、显存使用率 / 占用量,精准监控 AI 加速硬件负载,适配大模型、深度学习推理场景。 |
| 网络流量监控 | 网络上行流速 / 网络下行流速:实时统计接收 / 发送流量速率(Byte/s),识别网络带宽瓶颈、异常流量攻击。 连接数:实时在线连接数、连接数趋势,判断服务并发承载能力、长连接泄漏问题。 |
| 请求性能监控 | 服务请求数:统计周期内 2xx(成功)、4xx、5xx(异常)请求总量,直观反映服务可用性。 服务请求QPS:每秒请求次数,衡量服务并发处理能力。 服务请求时延:平均时延、TP50/TP90/TP99 时延(毫秒),定位慢请求、性能瓶颈。 原理:拦截推理服务入口流量,记录请求收发时间、响应码,按统计周期聚合计算,支持毫秒级时延精度。 |
| 模型推理专项监控(大模型适配) | 首 Token 时延:请求发起至返回第一个 Token 的时延,大模型流式推理核心指标,反映模型初始化与首帧生成效率。 非首 Token 时延:后续每个 Token 生成时延,衡量模型持续推理稳定性。 Token 数统计:输入 / 输出 / 总 Token 数及增量,适配计费、模型输入输出规模分析。 |
不同类型的监控指标如何查看
| 查看方式 | 查看指标 | 适用场景 | 参考文档 |
|---|---|---|---|
| ModelArts控制台 | 大模型推理业务指标(QPS、时延、TTFT、Token 数、服务状态)、基础资源监控指标 | 日常运营、业务观测 | |
| AOM 控制台 | 底层资源(CPU/GPU/NPU/ 节点)、全量原始指标、告警、自定义大盘 | 运维排障、容量规划、SLA 保障 | |
| 自定义监控指标 | 模型内部状态、业务特有维度、性能拆分、缓存 / 队列、计费维度 | 默认指标无法覆盖的 LLM 深度运维场景 |
前提条件
- 权限配置:用户需要配置AOM只读权限。如果使用角色与策略权限,请配置AOM ReadOnlyAccess系统策略。如果使用身份策略权限,请配置AOMReadOnlyPolicy系统身份策略。
- 服务部署:在线服务已部署完成,状态为运行中 / 告警 / 升级中(部署中 / 已停止服务无完整监控数据)。
约束限制
监控时间跨度最大支持15 天,统计周期可选 1 分钟 / 5 分钟 / 15 分钟 / 1小时。
ModelArts控制台可查看的推理监控指标
| 参数名称 | 参数说明 |
|---|---|
| CPU使用量 | 在线服务的CPU使用量,单位Core,即使用核数。 |
| CPU使用率 | 在线服务的CPU使用率。 |
| 内存使用量 | 在线服务的内存使用量,单位MB。 |
| 内存使用率 | 在线服务的内存使用率。 |
| GPU使用率 | 使用GPU资源时显示。在线服务的GPU使用率。 |
| GPU显存 | 使用GPU资源时显示。在线服务的GPU显存使用率与使用量。 |
| NPU使用率 | 使用NPU资源时显示。在线服务的NPU使用率。 |
| NPU显存 | 使用NPU资源时显示。在线服务的NPU显存使用率与使用量。 |
| 网络上行流速 | 在线服务的网络接收流量速率,单位Byte/s。 |
| 网络下行流速 | 在线服务的网络发出流量速率,单位Byte/s。 |
| 服务请求数 | 在线服务的统计周期内的不同返回码调用量,包含2xx,4xx,5xx,取值为统计周期内的总和,其中2xx为成功数。 |
| 服务请求QPS | 在线服务的调用QPS,取值为统计周期内的调用总数/所选周期的秒数。 |
| 连接数 | 在线服务的实时连接数采样数据,用于给出服务处于建连状态的请求数量。 |
| 服务请求时延趋势 | 在线服务的请求平均时延趋势、TP50、TP90、TP99,单位为毫秒(ms)。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务请求时延的 TP90=300ms 表示 90% 的用户请求时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。 |
| 服务首Token时延趋势 | 一个周期内首Token的时延趋势,包括平均时延,TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务首Token时延的 TP90=300ms 表示 90% 的用户请求服务首Token时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。 |
| 服务非首Token时延趋势 | 一个周期内每个输出Token的时延趋势,包括平均时延,TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务非首Token时延的 TP90=300ms 表示 90% 的用户一个周期内每个输出Token的时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。 |
| 服务Token数增量趋势 | 一个周期内在线服务请求的Token的增量,包括总输入token数,总输出token数,总服务token数。总服务token数=总输入token数+总输出token数。 |
| 服务输入Token数 | 一个周期内在线服务请求的输入Token数的TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输入Token数的 TP90=300 表示 90% 的用户请求服务输入token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。 |
| 服务输出Token数 | 一个周期内在线服务请求的输出Token数的TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输出Token数的 TP90=300 表示 90% 的用户请求服务输出token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。 |
CPU使用率、内存使用率、GPU使用率及显存、NPU使用率及显存为实时数据。
服务请求数、请求QPS、连接数、请求时延、Token时延、token数等是从服务创建完成后开始统计。
涉及增量和TPxx的监控指标均为增量计算,可能会出现一个周期内样本点过少,计算为0的情况出现。
ModelArts控制台上查看监控操作步骤
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”。
- 单击在线服务名称,进入在线服务的详情页面。
- 单击“监控”,切换至“监控”页签,进入监控信息页面。默认呈现服务级近15分钟的监控,统计周期1分钟。 图1 服务详情页服务级监控信息

- 在“监控”页签查看服务和对应服务版本的监控数据。
- 选择时间栏及对应的统计周期,按需查看监控指标图例,时间栏最大支持15天跨度。 图2 选择时间栏查看不同时间段监控信息
- 选择部署查看服务部署级别监控(仅支持资源使用指标)。 图3 服务实例级别监控
- 选择部署、实例和Pod查看服务Pod级别监控(仅支持资源使用指标)。 图4 服务Pod级别监控
- 选择时间栏及对应的统计周期,按需查看监控指标图例,时间栏最大支持15天跨度。
ModelArts控制台上自定义仪表盘查看监控指标
用户需要个性化展示控制台上的监控指标时,可以根据业务需要自定义仪表盘。
- 登录ModelArts管理控制台,在左侧导航栏中选择“模型推理 > 在线推理”,默认进入“在线推理”列表。
- 单击在线服务名称,进入在线服务的详情页面。
- 单击“监控”,切换至“监控”页签,进入监控信息页面。切换到“自定义仪表盘”页签。
自定义仪表盘可实时观测监控的指标值及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看及分析业务数据。监控指标以及相关操作可参考AOM可观测指标浏览。