在ModelArts平台查看在线服务性能指标
服务创建后,用户需要掌握自己的在线服务和对应模型版本的监控数据。可以通过“服务详情-监控页签”查看服务和对应服务版本的监控数据。
权限申请
用户需要配置AOM监控查询权限,授权项:"aom:metric:list"。
约束限制
只支持同步在线服务查看监控信息。
监控指标
监控数据见下表。
|
参数名称 |
参数说明 |
|---|---|
|
CPU |
在线服务的CPU使用率与使用量(单位Core)。 |
|
内存 |
在线服务的内存使用率与使用量(单位MB)。 |
|
GPU使用率 |
使用GPU资源时显示。在线服务的GPU使用率。 |
|
GPU显存 |
使用GPU资源时显示。在线服务的GPU显存使用率与使用量。 |
|
NPU使用率 |
使用NPU资源时显示。在线服务的NPU使用率。 |
|
NPU显存 |
使用NPU资源时显示。在线服务的NPU显存使用率与使用量。 |
|
服务网络流速 |
在线服务的网络流量速率,包含接收流量和发出流量速率(单位MB/s)。 |
|
服务请求数 |
在线服务的统计周期内的不同返回码调用量,包含2xx,4xx,5xx,取值为统计周期内的总和,其中2xx为成功数。 |
|
服务请求QPS |
在线服务的调用QPS,取值为统计周期内的调用总数/所选周期的秒数。 |
|
连接数 |
在线服务的实时连接数采样数据,用于给出服务处于建连状态的请求数量。 |
|
服务请求时延趋势 |
在线服务的请求平均时延趋势、TP50、TP95、TP99,单位为毫秒(ms)。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务请求时延的 TP90=300ms 表示 90% 的用户请求时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。 |
|
当前连接数 |
在线服务在指标采集时刻的实时连接数量。 |
|
服务首Token时延趋势 |
一个周期内首Token的时延趋势,包括平均时延,TP50、TP95、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务首Token时延的 TP90=300ms 表示 90% 的用户请求服务首Token时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。 |
|
服务非首Token时延趋势 |
一个周期内每个输出Token的时延趋势,包括平均时延,TP50、TP95、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务非首Token时延的 TP90=300ms 表示 90% 的用户一个周期内每个输出Token的时延在 300 毫秒内。仅为统计估算值,并非完全精确,可能为小数。 |
|
服务Token数增量趋势 |
一个周期内在线服务请求的Token的增量,包括总输入token数,总输出token数,总服务token数。总服务token数=总输入token数+总输出token数。 |
|
服务输入Token数 |
一个周期内在线服务请求的输入Token数的TP50、TP95、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输入Token数的 TP90=300 表示 90% 的用户请求服务输入token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。 |
|
服务输出Token数 |
一个周期内在线服务请求的输出Token数的TP50、TP95、TP99。 TPxx 表示在统计区间内 xx% 的用户请求的对应指标不超过这个值。例如服务输出Token数的 TP90=300 表示 90% 的用户请求服务输出token数在 300 个以内。仅为统计估算值,并非完全精确,可能为小数。 |
CPU使用率、内存使用率、GPU使用率及显存、NPU使用率及显存为实时数据。
服务请求数、请求QPS、连接数、请求时延、Token时延、token数等是从服务创建完成后开始统计。
涉及增量和TPxx的监控指标均为增量计算,可能会出现一个周期内样本点过少,计算为0的情况出现。
控制台查看监控信息
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”。
- 单击在线服务名称,进入在线服务的详情页面。
- 单击“监控”,切换至“监控”页签,进入监控信息页面。默认呈现服务级近15分钟的监控,统计周期1分钟。
图1 服务详情页服务级监控信息

- 在“监控”页签查看服务和对应服务版本的监控数据。
- 选择时间栏及对应的统计周期,按需查看监控指标图例,时间栏最大支持15天跨度。
图2 选择时间栏查看不同时间段监控信息
- 选择部署查看服务部署级别监控(仅支持资源使用指标)。
图3 服务实例级别监控
- 选择部署、实例和pod查看服务pod级别监控(仅支持资源使用指标)。
图4 服务pod级别监控
- 选择时间栏及对应的统计周期,按需查看监控指标图例,时间栏最大支持15天跨度。