在CES查看ModelArts Studio(MaaS)调用数据和监控指标
云监控服务CES提供云服务监控功能,支持查看MaaS预置服务-商用服务、预置服务-免费服务、我的服务在指定时间段内的调用数据和监控指标详情,包括RPM、TPM、请求失败率、输入Tokens数、输出Tokens数等信息,并以分钟为最小时间粒度展示数据趋势,帮助您了解服务的使用情况和性能变化,从而更有效地进行模型评估、问题定位、故障排除和性能优化。
场景描述
- 资源消耗监控:跟踪模型服务的Tokens使用量,避免超额使用。
- 成本分析:根据输入/输出Tokens的分布,优化调用策略以降低成本。
- 性能指标:支持查看模型的多种常见性能指标,进行性能优化。
- 服务优化:通过分析调用频率与Tokens消耗的关系,调整服务配置或扩容计划。
- 异常排查:快速定位特定时间段的调用量激增、异常消耗和调用失败问题。
约束限制
- 统计范围:
- 仅统计预置服务-商用服务、预置服务-免费服务、我的服务的调用数据。
- 实例列表:如实例超过一定时长(大于3小时)未上报监控数据,将不会展示在实例列表中。
- 实例列表-视图页面:如实例指标超过一定时长(大于1小时)未上报监控数据,则该指标将不会展示在视图页面。
- 时间范围限制:
- 支持预设时间段:近15分钟、近30分钟、近1小时、近2小时、近3小时、近12小时、近24小时、近7天、近14天、近30天。
- 自定义时间段:最长不超过30天。
计费说明
- 云服务监控功能本身不收费。
- 在MaaS进行模型调用时,可能涉及到相关资源收费。具体信息,请参见模型推理计费项。
前提条件
预置服务或我的服务满足以下条件:
- 预置服务-商用服务:已开通预置服务的商用服务并产生调用记录。具体操作,请参见在ModelArts Studio(MaaS)预置服务中开通商用服务。
- 预置服务-免费服务:已使用免费服务并产生调用记录。具体操作,请参见在ModelArts Studio(MaaS)预置服务中体验免费服务。
- 我的服务:已在“我的服务”页面部署模型服务并产生调用记录。具体操作,请参见使用ModelArts Studio(MaaS)部署模型服务。
监控指标的命名空间
SYS.MaaS
查看服务调用的监控数据
- 登录云监控服务管理控制台,在左侧导航栏单击“云服务监控”。
- 在“云服务监控”页面,单击“MaaS MaaS”看板名称。
- 在“资源详情”页签的实例列表,查看服务的整体情况。
- 在实例列表的“操作”列,单击目标服务对应的“查看监控指标”。
- 在“资源实例”页签或“API Key”页签,查看服务的监控指标详情。
- 首Token时延和增量Token时延仅统计流式响应。受限于模型版本约束,部分模型版本在非流式场景下不支持该指标展示,请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作,请参见在ModelArts Studio(MaaS)升级模型服务。
- 不同监控周期对应聚合方式的聚合时间不同,详情请参见查看监控视图。
- 监控指标默认保留两位小数。
表1 监控指标说明 指标ID
指标名称
指标含义
单位
进制
监控周期
rpm
RPM
每分钟处理的请求数。
count/min
-
1分钟
tpm
TPM
每分钟处理的Tokens数(输入+输出)。
thousand/min
-
1分钟
req_count_4xx
4XX数量
服务调用错误4XX次数。
count/min
-
1分钟
req_count_5xx
5XX数量
服务调用错误5XX次数。
count/min
-
1分钟
req_count
调用总量
调用的总量。
count/min
-
1分钟
req_count_2xx
调用成功次数
2XX成功的次数。
count/min
-
1分钟
req_count_error
调用失败次数
调用失败的次数。
- 调用失败次数可能会超过4XX和5XX错误的总和,因为还可能包含不属于4xx或5xx类别的错误。
- 调用失败次数仅涵盖模型服务产生的4XX和5XX错误,不包括租户在服务请求中因非模型服务因素导致的错误,例如鉴权失败等。
count/min
-
1分钟
req_error_rate
请求失败率
调用失败次数占调用总次数的比例。
%
-
1分钟
req_error_4xx_rate
请求4XX失败率
调用失败4XX次数/调用总次数。
%
-
1分钟
req_error_5xx_rate
请求5XX失败率
调用失败5XX次数/调用总次数。
%
-
1分钟
prompt_tokens
输入tokens数
服务调用输入Tokens数。
thousand
-
1分钟
completion_tokens
输出tokens数
服务调用输出Tokens数。
thousand
-
1分钟
total_tokens
调用总tokens数
服务调用总Tokens数。
thousand
-
1分钟
prompt_tokens_avg
平均输入token长度
输入Token平均长度。
thousand
-
1分钟
completion_tokens_avg
平均输出token长度
输出Token平均长度。
thousand
-
1分钟
prompt_tokens_p50
输入token TP 50
50%的输入Token大小低于该值。
thousand
-
1分钟
prompt_tokens_p80
输入token TP 80
80%的输入Token大小低于该值。
thousand
-
1分钟
prompt_tokens_p90
输入token TP 90
90%的输入Token大小低于该值。
thousand
-
1分钟
prompt_tokens_p99
输入token TP 99
99%的输入Token大小低于该值。
thousand
-
1分钟
completion_tokens_p50
输出token TP 50
50%的输出Token大小低于该值。
thousand
-
1分钟
completion_tokens_p80
输出token TP 80
80%的输出Token大小低于该值。
thousand
-
1分钟
completion_tokens_p90
输出token TP 90
90%的输出Token大小低于该值。
thousand
-
1分钟
completion_tokens_p99
输出token TP 99
99%的输出Token大小低于该值。
thousand
-
1分钟
prompt_tokens_max
最长输入token长度
输入Token最大值。
thousand
-
1分钟
completion_tokens_max
最长输出token长度
输出Token最大值。
thousand
-
1分钟
ttft
TTFT(AVG)
首Token时延,即从接收请求到生成第一个输出Token所需的时间。
ms
-
1分钟
tpot
TPOT(AVG)
增量Token时延,即生成后续每个输出Token所需的时间间隔。
ms
-
1分钟
latency_avg
平均响应时延
单位时间内成功请求的响应时间平均值。
ms
-
1分钟
ttft_p50
首token时延 TP50
50%的首Token时延低于该值。
ms
-
1分钟
ttft_p80
首token时延 TP80
80%的首Token时延低于该值。
ms
-
1分钟
ttft_p90
首token时延 TP90
90%的首Token时延低于该值。
ms
-
1分钟
ttft_p99
首token时延 TP99
99%的首Token时延低于该值。
ms
-
1分钟
ttft_max
最长首token时延
首Token时延最大值。
ms
-
1分钟
tpot_p50
增量 token时延 TP50
50%的增量Token时延低于该值。
ms
-
1分钟
tpot_p80
增量 token时延 TP80
80%的增量Token时延低于该值。
ms
-
1分钟
tpot_p90
增量 token时延 TP90
90%的增量Token时延低于该值。
ms
-
1分钟
tpot_p99
增量 token时延 TP99
99%的增量Token时延低于该值。
ms
-
1分钟
tpot_max
最长增量 token时延
增量Token时延最大值。
ms
-
1分钟
average_generation_time
Average generation time
从输入到生成输出的平均时间。
s
-
1分钟
req_count_400
400 Quantity
服务调用错误400次数。
count/min
-
1分钟
req_count_401
401 Quantity
服务调用错误401次数。
count/min
-
1分钟
req_count_403
403 Quantity
服务调用错误403次数。
count/min
-
1分钟
req_count_404
404 Quantity
服务调用错误404次数。
count/min
-
1分钟
req_count_413
413 Quantity
服务调用错误413次数。
count/min
-
1分钟
req_count_429
429 Quantity
服务调用错误429次数。
count/min
-
1分钟
req_count_500
500 Quantity
服务调用错误500次数。
count/min
-
1分钟
req_count_503
503 Quantity
服务调用错误503次数。
count/min
-
1分钟
req_count_504
504 Quantity
服务调用错误504次数。
count/min
-
1分钟