在ModelArts平台查看在线服务性能指标

场景描述

ModelArts 推理监控是针对在线推理服务的全链路可观测能力，覆盖资源层、网络层、请求层、模型推理层四大维度，实时采集服务运行数据并可视化呈现，支持性能诊断、异常告警、容量规划，保障 AI 服务稳定高效运行。

支持的监控维度和指标分类如表1所示。

表1 支持的监控维度分类
核心监控维度	核心监控指标
资源利用率监控	CPU / 内存：实时采集推理实例的 CPU 使用率、Core 数、内存使用率、内存使用量（MB），反映实例基础资源负载。 GPU / NPU（异构资源）：采集 GPU/NPU 使用率、显存使用率 / 占用量，精准监控 AI 加速硬件负载，适配大模型、深度学习推理场景。
网络流量监控	网络上行流速 / 网络下行流速：实时统计接收 / 发送流量速率（Byte/s），识别网络带宽瓶颈、异常流量攻击。连接数：实时在线连接数、连接数趋势，判断服务并发承载能力、长连接泄漏问题。
请求性能监控	服务请求数：统计周期内 2xx（成功）、4xx、5xx（异常）请求总量，直观反映服务可用性。服务请求QPS：每秒请求次数，衡量服务并发处理能力。服务请求时延：平均时延、TP50/TP90/TP99时延（毫秒），定位慢请求、性能瓶颈。原理：拦截推理服务入口流量，记录请求收发时间、响应码，按统计周期聚合计算，支持毫秒级时延精度。
模型推理专项监控（大模型适配）	首Token时延：请求发起至返回第一个Token的时延，大模型流式推理核心指标，反映模型初始化与首帧生成效率。非首Token时延：后续每个Token生成时延，衡量模型持续推理稳定性。 Token数统计：输入/输出/总Token数及增量，适配计费、模型输入输出规模分析。

不同类型的监控指标如何查看

表2 不同类型的监控指标查看方式
查看方式	查看指标	适用场景	参考文档
ModelArts控制台	大模型推理业务指标（QPS、时延、TTFT、Token数、服务状态）、基础资源监控指标	日常运营、业务观测	ModelArts控制台可查看的推理监控指标 ModelArts控制台上查看监控操作步骤 ModelArts控制台上自定义仪表盘查看监控指标
AOM 控制台	底层资源（CPU/GPU/NPU/节点）、全量原始指标、告警、自定义大盘	运维排障、容量规划、SLA保障	在AOM平台查看在线服务性能指标
自定义监控指标	模型内部状态、业务特有维度、性能拆分、缓存/队列、计费维度	默认指标无法覆盖的LLM深度运维场景	自定义监控采集指标

前提条件

权限配置：用户需要配置AOM只读权限。如果使用角色与策略权限，请配置AOM ReadOnlyAccess系统策略。如果使用身份策略权限，请配置AOMReadOnlyPolicy系统身份策略。
服务部署：在线服务已部署完成，状态为运行中 / 告警 / 升级中（部署中 / 已停止服务无完整监控数据）。

约束限制

监控时间跨度最大支持15 天，统计周期可选 1 分钟 / 5 分钟 / 15 分钟 / 1小时。

ModelArts控制台可查看的推理监控指标

表3 ModelArts控制台可查看的推理监控指标
参数名称	参数说明
CPU使用量	在线服务的CPU使用量，单位Core，即使用核数。
CPU使用率	在线服务的CPU使用率。
内存使用量	在线服务的内存使用量，单位MB。
内存使用率	在线服务的内存使用率。
GPU使用率	使用GPU资源时显示。在线服务的GPU使用率。
GPU显存	使用GPU资源时显示。在线服务的GPU显存使用率与使用量。
NPU使用率	使用NPU资源时显示。在线服务的NPU使用率。
NPU显存	使用NPU资源时显示。在线服务的NPU显存使用率与使用量。
网络上行流速	在线服务的网络接收流量速率，单位Byte/s。
网络下行流速	在线服务的网络发出流量速率，单位Byte/s。
服务请求数	在线服务的统计周期内的不同返回码调用量，包含2xx,4xx,5xx，取值为统计周期内的总和，其中2xx为成功数。
服务请求QPS	在线服务的调用QPS，取值为统计周期内的调用总数/所选周期的秒数。
连接数	在线服务的实时连接数采样数据，用于给出服务处于建连状态的请求数量。
服务请求时延趋势	在线服务的请求平均时延趋势、TP50、TP90、TP99，单位为毫秒（ms）。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务请求时延的 TP90=300ms 表示 90% 的用户请求时延在 300 毫秒内。仅为统计估算值，并非完全精确，可能为小数。
服务首Token时延趋势	一个周期内首Token的时延趋势，包括平均时延，TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务首Token时延的 TP90=300ms 表示 90% 的用户请求服务首Token时延在 300 毫秒内。仅为统计估算值，并非完全精确，可能为小数。
服务非首Token时延趋势	一个周期内每个输出Token的时延趋势，包括平均时延，TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务非首Token时延的 TP90=300ms 表示 90% 的用户一个周期内每个输出Token的时延在 300 毫秒内。仅为统计估算值，并非完全精确，可能为小数。
服务Token数增量趋势	一个周期内在线服务请求的Token的增量，包括总输入token数，总输出token数，总服务token数。总服务token数=总输入token数+总输出token数。
服务输入Token数	一个周期内在线服务请求的输入Token数的TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输入Token数的 TP90=300 表示 90% 的用户请求服务输入token数在 300 个以内。仅为统计估算值，并非完全精确，可能为小数。
服务输出Token数	一个周期内在线服务请求的输出Token数的TP50、TP90、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输出Token数的 TP90=300 表示 90% 的用户请求服务输出token数在 300 个以内。仅为统计估算值，并非完全精确，可能为小数。

CPU使用率、内存使用率、GPU使用率及显存、NPU使用率及显存为实时数据。

服务请求数、请求QPS、连接数、请求时延、Token时延、token数等是从服务创建完成后开始统计。

涉及增量和TPxx的监控指标均为增量计算，可能会出现一个周期内样本点过少，计算为0的情况出现。

ModelArts控制台上查看监控操作步骤

登录ModelArts管理控制台，在左侧菜单栏中选择“模型推理 > 在线推理”。
单击在线服务名称，进入在线服务的详情页面。
单击“监控”，切换至“监控”页签，进入监控信息页面。默认呈现服务级近15分钟的监控，统计周期1分钟。
图1 服务详情页服务级监控信息
在“监控”页签查看服务和对应服务版本的监控数据。
- 选择时间栏及对应的统计周期，按需查看监控指标图例，时间栏最大支持15天跨度。
  图2 选择时间栏查看不同时间段监控信息
- 选择部署查看服务部署级别监控（仅支持资源使用指标）。
  图3 服务实例级别监控
- 选择部署、实例和Pod查看服务Pod级别监控（仅支持资源使用指标）。
  图4 服务Pod级别监控

ModelArts控制台上自定义仪表盘查看监控指标

用户需要个性化展示控制台上的监控指标时，可以根据业务需要自定义仪表盘。

登录ModelArts管理控制台，在左侧导航栏中选择“模型推理 > 在线推理”，默认进入“在线推理”列表。
单击在线服务名称，进入在线服务的详情页面。
单击“监控”，切换至“监控”页签，进入监控信息页面。切换到“自定义仪表盘”页签。
自定义仪表盘可实时观测监控的指标值及趋势，还可对关注的指标进行创建告警规则等操作，以便实时查看及分析业务数据。监控指标以及相关操作可参考AOM可观测指标浏览。