更新时间:2026-06-18 GMT+08:00
分享

在ModelArts平台查看在线服务性能指标

场景描述

ModelArts 推理监控是针对在线推理服务的全链路可观测能力,覆盖资源层、网络层、请求层、模型推理层四大维度,实时采集服务运行数据并可视化呈现,支持性能诊断、异常告警、容量规划,保障 AI 服务稳定高效运行。

支持的监控维度和指标分类如表1所示。

表1 支持的监控维度分类

核心监控维度

核心监控指标

资源利用率监控

CPU / 内存:实时采集推理实例的 CPU 使用率、Core 数、内存使用率、内存使用量(MB),反映实例基础资源负载。

GPU / NPU(异构资源):采集 GPU/NPU 使用率、显存使用率 / 占用量,精准监控 AI 加速硬件负载,适配大模型、深度学习推理场景。

网络流量监控

网络上行流速 / 网络下行流速:实时统计接收 / 发送流量速率(Byte/s),识别网络带宽瓶颈、异常流量攻击。

连接数:实时在线连接数、连接数趋势,判断服务并发承载能力、长连接泄漏问题。

请求性能监控

服务请求数:统计周期内 2xx(成功)、4xx、5xx(异常)请求总量,直观反映服务可用性。

服务请求QPS:每秒请求次数,衡量服务并发处理能力。

服务请求时延:平均时延、TP50/TP90/TP99 时延(毫秒),定位慢请求、性能瓶颈。

原理:拦截推理服务入口流量,记录请求收发时间、响应码,按统计周期聚合计算,支持毫秒级时延精度。

模型推理专项监控(大模型适配)

首 Token 时延:请求发起至返回第一个 Token 的时延,大模型流式推理核心指标,反映模型初始化与首帧生成效率。

非首 Token 时延:后续每个 Token 生成时延,衡量模型持续推理稳定性。

Token 数统计:输入 / 输出 / 总 Token 数及增量,适配计费、模型输入输出规模分析。

不同类型的监控指标如何查看

表2 不同类型的监控指标查看方式

查看方式

查看指标

适用场景

参考文档

ModelArts控制台

大模型推理业务指标(QPS、时延、TTFT、Token 数、服务状态)、基础资源监控指标

日常运营、业务观测

  1. ModelArts控制台可查看的推理监控指标
  2. ModelArts控制台上查看监控操作步骤
  3. ModelArts控制台上自定义仪表盘查看监控指标

AOM 控制台

底层资源(CPU/GPU/NPU/ 节点)、全量原始指标、告警、自定义大盘

运维排障、容量规划、SLA 保障

在AOM平台查看在线服务性能指标

自定义监控指标

模型内部状态、业务特有维度、性能拆分、缓存 / 队列、计费维度

默认指标无法覆盖的 LLM 深度运维场景

自定义监控采集指标

前提条件

  • 权限配置:用户需要配置AOM只读权限。如果使用角色与策略权限,请配置AOM ReadOnlyAccess系统策略。如果使用身份策略权限,请配置AOMReadOnlyPolicy系统身份策略。
  • 服务部署:在线服务已部署完成,状态为运行中 / 告警 / 升级中(部署中 / 已停止服务无完整监控数据)。

约束限制

监控时间跨度最大支持15 天,统计周期可选 1 分钟 / 5 分钟 / 15 分钟 / 1小时。

ModelArts控制台可查看的推理监控指标

表3 ModelArts控制台可查看的推理监控指标

参数名称

参数说明

CPU使用量

在线服务的CPU使用量,单位Core,即使用核数。

CPU使用率

在线服务的CPU使用率。

内存使用量

在线服务的内存使用量,单位MB。

内存使用率

在线服务的内存使用率。

GPU使用率

使用GPU资源时显示。在线服务的GPU使用率。

GPU显存

使用GPU资源时显示。在线服务的GPU显存使用率与使用量。

NPU使用率

使用NPU资源时显示。在线服务的NPU使用率。

NPU显存

使用NPU资源时显示。在线服务的NPU显存使用率与使用量。

网络上行流速

在线服务的网络接收流量速率,单位Byte/s。

网络下行流速

在线服务的网络发出流量速率,单位Byte/s。

服务请求数

在线服务的统计周期内的不同返回码调用量,包含2xx,4xx,5xx,取值为统计周期内的总和,其中2xx为成功数。

服务请求QPS

在线服务的调用QPS,取值为统计周期内的调用总数/所选周期的秒数。

连接数

在线服务的实时连接数采样数据,用于给出服务处于建连状态的请求数量。

服务请求时延趋势

在线服务的请求平均时延趋势、TP50、TP90、TP99,单位为毫秒(ms)。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务请求时延的 TP90=300ms 表示 90% 的用户请求时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。

服务首Token时延趋势

一个周期内首Token的时延趋势,包括平均时延,TP50、TP90、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务首Token时延的 TP90=300ms 表示 90% 的用户请求服务首Token时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。

服务非首Token时延趋势

一个周期内每个输出Token的时延趋势,包括平均时延,TP50、TP90、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务非首Token时延的 TP90=300ms 表示 90% 的用户一个周期内每个输出Token的时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。

服务Token数增量趋势

一个周期内在线服务请求的Token的增量,包括总输入token数,总输出token数,总服务token数。总服务token数=总输入token数+总输出token数。

服务输入Token数

一个周期内在线服务请求的输入Token数的TP50、TP90、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输入Token数的 TP90=300 表示 90% 的用户请求服务输入token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。

服务输出Token数

一个周期内在线服务请求的输出Token数的TP50、TP90、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输出Token数的 TP90=300 表示 90% 的用户请求服务输出token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。

CPU使用率、内存使用率、GPU使用率及显存、NPU使用率及显存为实时数据。

服务请求数、请求QPS、连接数、请求时延、Token时延、token数等是从服务创建完成后开始统计。

涉及增量和TPxx的监控指标均为增量计算,可能会出现一个周期内样本点过少,计算为0的情况出现。

ModelArts控制台上查看监控操作步骤

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”
  2. 单击在线服务名称,进入在线服务的详情页面。
  3. 单击“监控”,切换至“监控”页签,进入监控信息页面。默认呈现服务级近15分钟的监控,统计周期1分钟。
    图1 服务详情页服务级监控信息

  4. “监控”页签查看服务和对应服务版本的监控数据。
    • 选择时间栏及对应的统计周期,按需查看监控指标图例,时间栏最大支持15天跨度。
      图2 选择时间栏查看不同时间段监控信息

    • 选择部署查看服务部署级别监控(仅支持资源使用指标)。
      图3 服务实例级别监控

    • 选择部署、实例和Pod查看服务Pod级别监控(仅支持资源使用指标)。
      图4 服务Pod级别监控

ModelArts控制台上自定义仪表盘查看监控指标

用户需要个性化展示控制台上的监控指标时,可以根据业务需要自定义仪表盘。

  1. 登录ModelArts管理控制台,在左侧导航栏中选择“模型推理 > 在线推理”,默认进入“在线推理”列表。
  2. 单击在线服务名称,进入在线服务的详情页面。
  3. 单击“监控”,切换至“监控”页签,进入监控信息页面。切换到“自定义仪表盘”页签。

    自定义仪表盘可实时观测监控的指标值及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看及分析业务数据。监控指标以及相关操作可参考AOM可观测指标浏览

相关文档