文档首页/ AI开发平台ModelArts/ 推理部署/ 推理部署/ 管理同步在线服务/ 在ModelArts平台查看在线服务性能指标
更新时间:2026-02-06 GMT+08:00
分享

在ModelArts平台查看在线服务性能指标

服务创建后,用户需要掌握自己的在线服务和对应模型版本的监控数据。可以通过“服务详情-监控页签”查看服务和对应服务版本的监控数据。

权限申请

用户需要配置AOM监控查询权限,授权项:"aom:metric:list"。

约束限制

只支持同步在线服务查看监控信息。

监控指标

监控数据见下表。

表1 监控指标

参数名称

参数说明

CPU

在线服务的CPU使用率与使用量(单位Core)。

内存

在线服务的内存使用率与使用量(单位MB)。

GPU使用率

使用GPU资源时显示。在线服务的GPU使用率。

GPU显存

使用GPU资源时显示。在线服务的GPU显存使用率与使用量。

NPU使用率

使用NPU资源时显示。在线服务的NPU使用率。

NPU显存

使用NPU资源时显示。在线服务的NPU显存使用率与使用量。

服务网络流速

在线服务的网络流量速率,包含接收流量和发出流量速率(单位MB/s)。

服务请求数

在线服务的统计周期内的不同返回码调用量,包含2xx,4xx,5xx,取值为统计周期内的总和,其中2xx为成功数。

服务请求QPS

在线服务的调用QPS,取值为统计周期内的调用总数/所选周期的秒数。

连接数

在线服务的实时连接数采样数据,用于给出服务处于建连状态的请求数量。

服务请求时延趋势

在线服务的请求平均时延趋势、TP50、TP95、TP99,单位为毫秒(ms)。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务请求时延的 TP90=300ms 表示 90% 的用户请求时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。

当前连接数

在线服务在指标采集时刻的实时连接数量。

服务首Token时延趋势

一个周期内首Token的时延趋势,包括平均时延,TP50、TP95、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务首Token时延的 TP90=300ms 表示 90% 的用户请求服务首Token时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。

服务非首Token时延趋势

一个周期内每个输出Token的时延趋势,包括平均时延,TP50、TP95、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务非首Token时延的 TP90=300ms 表示 90% 的用户一个周期内每个输出Token的时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。

服务Token数增量趋势

一个周期内在线服务请求的Token的增量,包括总输入token数,总输出token数,总服务token数。总服务token数=总输入token数+总输出token数。

服务输入Token数

一个周期内在线服务请求的输入Token数的TP50、TP95、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输入Token数的 TP90=300 表示 90% 的用户请求服务输入token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。

服务输出Token数

一个周期内在线服务请求的输出Token数的TP50、TP95、TP99。

TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输出Token数的 TP90=300 表示 90% 的用户请求服务输出token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。

CPU使用率、内存使用率、GPU使用率及显存、NPU使用率及显存为实时数据。

服务请求数、请求QPS、连接数、请求时延、Token时延、token数等是从服务创建完成后开始统计。

涉及增量和TPxx的监控指标均为增量计算,可能会出现一个周期内样本点过少,计算为0的情况出现。

控制台查看监控信息

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”
  2. 单击在线服务名称,进入在线服务的详情页面。
  3. 单击“监控”,切换至“监控”页签,进入监控信息页面。默认呈现服务级近15分钟的监控,统计周期1分钟。
    图1 服务详情页服务级监控信息

  4. “监控”页签查看服务和对应服务版本的监控数据。
    • 选择时间栏及对应的统计周期,按需查看监控指标图例,时间栏最大支持15天跨度。
      图2 选择时间栏查看不同时间段监控信息

    • 选择部署查看服务部署级别监控(仅支持资源使用指标)。
      图3 服务实例级别监控
    • 选择部署、实例和pod查看服务pod级别监控(仅支持资源使用指标)。
      图4 服务pod级别监控

相关文档