在ModelArts Studio(MaaS)查看在线推理的调用数据和监控指标
MaaS提供调用统计功能,支持查看我的服务、预置服务-商用服务、预置服务-免费服务、预置服务-自定义接入点在指定时间段内的调用数据和监控指标详情,包括总调用次数、总调用失败次数、总调用Tokens数、输入Tokens数、输出Tokens数、平均响应时延等信息,并以分钟为最小时间粒度展示数据趋势,帮助您了解服务的使用情况和性能变化,从而更有效地进行模型评估、问题定位、故障排除和性能优化。
场景描述
- 资源消耗监控:跟踪模型服务的Tokens使用量,避免超额使用。
- 成本分析:根据输入/输出Tokens的分布,优化调用策略以降低成本。
- 性能指标:支持查看模型的多种常见性能指标,进行性能优化。
- 服务优化:通过分析调用频率与Tokens消耗的关系,调整服务配置或扩容计划。
- 异常排查:快速定位特定时间段的调用量激增、异常消耗和调用失败问题。
约束限制
- 统计范围:
- 仅统计预置服务-商用服务、预置服务-免费服务、预置服务-自定义接入点、我的服务的调用数据。2025年8月21日前的商用服务历史调用数据,无法区分版本。
- 调用统计数据仅统计通过API接口调用产生的数据,页面体验产生的数据暂时不纳入统计。
- 数据更新延迟:调用数据统计可能存在1~2小时的延迟,数据不能实时反映最新调用情况。
- 时间范围限制:
- 支持预设时间段:今天、昨天、近3天、近7天、近14天。
- 自定义时间段:最长不超过30天。
计费说明
- 调用统计功能本身不收费。
- 在MaaS进行模型调用时,可能涉及到相关资源收费。具体信息,请参见模型推理计费项。
前提条件
预置服务或我的服务满足以下任一条件:
- 预置服务-商用服务:已开通预置服务的商用服务并产生调用记录。具体操作,请参见在ModelArts Studio(MaaS)预置服务中开通商用服务。
- 预置服务-免费服务:已使用免费服务并产生调用记录。具体操作,请参见在ModelArts Studio(MaaS)预置服务中体验免费服务。
- 预置服务-自定义接入点:已创建自定义接入点并产生调用记录。具体操作,请参见在ModelArts Studio(MaaS)预置服务中创建自定义接入点。
- 我的服务:已在“我的服务”页面部署模型服务并产生调用记录。具体操作,请参见使用ModelArts Studio(MaaS)部署模型服务。
查看服务调用的监控数据
在“调用统计”页面,您可以查看整体服务或单个服务通过API接口调用产生的数据详情。
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
- 在左侧导航栏,选择“管理与统计 > 调用统计”。
- 在“调用统计”页面的“在线推理”页签,按需选择“时间范围”、“服务类型”、“调用方式”和“IP地址”。
表1 调用统计筛选参数说明 参数
说明
时间范围
支持按照今天、昨天、近三天、近7天、近14天、自定义时间段统计服务的调用数据。
时间范围与时间精度过滤规则:- 时间范围≤1天,支持精度:按分钟、按小时、按天。
- 时间范围2-7天,支持精度:按小时、按天。
- 时间范围8-30天,支持精度:按天。
服务类型
我的服务
在“我的服务”页面部署的模型服务。更多信息,请参见使用ModelArts Studio(MaaS)部署模型服务。
预置服务-商用服务
页签开通的商用服务。更多信息,请参见 预置服务-免费服务
页签提供的免费服务。更多信息,请参见 预置服务-自定义接入点
页签创建的接入点服务。更多信息,请参见 调用方式
调用MaaS部署的模型服务时,使用API Key进行鉴权认证,默认为“全部API Key”,您也可以按需勾选API Key。更多信息,请参见调用ModelArts Studio(MaaS)部署的模型服务和在ModelArts Studio(MaaS)管理API Key。
IP地址
已产生调用量的客户端源IP地址(公网IP),来源于APIG日志中的http_x_forwarded_for字段值。当该字段包含多个值时,系统将采用第一个值;当字段值为-时,显示为空字符串。
IP地址默认显示为“全部”,您也可以按需勾选IP地址。
- 在“在线推理”页签,查看整体服务的总调用次数、总调用失败次数、总调用Tokens数等信息。
监控指标默认保留三位小数。
表2 整体服务的参数说明 参数
说明
总调用次数
服务的调用总次数。
总调用失败次数
服务的调用失败总次数,即4xx和5xx错误的总和。
总调用Tokens数
服务的调用总Tokens数。
输入Tokens数
服务的调用输入Tokens数。
输出Tokens数
服务的调用输出Tokens数。
- 在“在线推理”页签的“服务列表”区域,查看单个服务的调用次数、调用失败次数、调用失败率等信息。
服务列表只显示已开通的预置服务-商用服务、有效期内的预置服务-免费服务、已创建的预置服务-自定义接入点或已部署成功的我的服务。
表3 服务列表参数说明 参数
说明
服务名称/版本
调用服务的名称或版本。
仅商用服务支持服务版本。您可以单击
图标,查看服务各版本的统计信息。
调用次数
服务的调用次数。
调用失败次数
服务调用失败的次数。
调用失败率(%)
调用失败次数占调用总次数的比例。
调用总Tokens数(千tokens)
服务调用的总Tokens数。
输入Tokens数(千tokens)
输入的总Tokens数。
输出Tokens数(千tokens)
输出的总Tokens数。
平均响应时延(ms)
单位时间内成功请求的响应时间平均值。
首Token时延(ms)
从接收请求到生成第一个输出Token所需的时间。
增量Token时延(ms)
生成后续每个输出Token所需的时间间隔。
平均生成时长(s)
平均生成每图片/视频实际花费的时间。
如果指标显示为“-”,表示服务不涉及该指标。“服务调用详情”的“监控”页签,仅显示服务涉及的指标。
- 在“在线推理”页签的“服务列表”区域,单击目标服务右侧的“查看监控”,在“服务调用详情”页面的“监控”或“调用失败明细”页签查看调用相关信息。
在页面上方,您可以单击服务名称进行切换,也可以按需选择服务的版本(仅商用服务支持服务版本)。服务切换只显示已开通的预置服务-商用服务、有效期内的预置服务-免费服务、已创建的预置服务-自定义接入点或已部署成功的我的服务。
- “监控”页签:查看该服务的调用次数、调用失败率、输入Tokens大小、输出Tokens大小、平均响应时延等变化趋势。
表4 监控参数说明 参数
说明
筛选项
时间范围
默认为在“在线推理”页签选择的时间范围,您也可以按需修改。
时间精度
时间精度与选择的时间范围有关,过滤规则如下:
- 时间范围≤1天:支持按分钟、小时、天进行统计。
- 时间范围为2~7天:支持按小时、天进行统计。
- 时间范围为8~30天:支持按天进行统计。
调用方式
默认为在“在线推理”页签选择的调用方式,您也可以按需修改。
IP地址
默认为在“在线推理”页签选择的IP地址,您也可以按需修改。
监控指标
调用次数(次)
服务调用、成功、失败的次数。
Tokens数(千tokens)
服务的调用总Tokens数、输入Tokens总数、输出Tokens总数。
首Token时延(ms)
从接收请求到生成第一个输出Token所需的时间,仅统计流式响应。受限于模型版本约束,部分模型版本在非流式场景下不支持该指标展示,请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作,请参见在ModelArts Studio(MaaS)升级模型服务。
- AVG:首Token时延的平均值。
- MAX:首Token时延的最大值。
- P50:50%的首Token时延低于该值。
- P80:80%的首Token时延低于该值。
- P90:90%的首Token时延低于该值。
- P99:99%的首Token时延低于该值。
输入Tokens大小(千tokens)
输入Token长度。
- AVG:输入Token长度的平均值。
- MAX:输入Token长度的最大值。
- P50:50%的输入Token长度低于该值。
- P80:80%的输入Token长度低于该值。
- P90:90%的输入Token长度低于该值。
- P99:99%的输入Token长度低于该值。
RPM(次/分钟)
每分钟处理的请求数。
调用失败率(%)
调用失败次数占调用总次数的比例。
错误发生次数
各错误码的发生次数。
平均响应时延(ms)
单位时间内成功请求的响应时间平均值。
增量Token时延(ms)
生成后续每个输出Token所需的时间间隔,仅统计流式响应。受限于模型版本约束,部分模型版本在非流式场景下不支持该指标展示,请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作,请参见在ModelArts Studio(MaaS)升级模型服务。
- AVG:增量Token时延的平均值。
- MAX:增量Token时延的最大值。
- P50:50%的增量Token时延低于该值。
- P80:80%的增量Token时延低于该值。
- P90:90%的增量Token时延低于该值。
- P99:99%的增量Token时延低于该值。
输出Tokens大小(千tokens)
输出Token长度。
- AVG:输出Token长度的平均值。
- MAX:输出Token长度的最大值。
- P50:50%的输出Token长度低于该值。
- P80:80%的输出Token长度低于该值。
- P90:90%的输出Token长度低于该值。
- P99:99%的输出Token长度低于该值。
TPM(千tokens/分钟)
每分钟处理的Tokens数(输入+输出)。
平均生成时长(s)
平均生成每图片/视频实际花费的时间。
- “调用失败明细”页签:查看调用失败的相关信息,如错误码、发生次数、错误信息等,进行问题定位和修复等。
表5 调用失败明细参数说明 参数
说明
筛选项
时间范围
默认为在“在线推理”页签选择的时间范围,您也可以按需修改。
调用方式
默认为在“在线推理”页签选择的调用方式,您也可以按需修改。
IP地址
默认为在“在线推理”页签选择的IP地址,您也可以按需修改。
错误信息
错误码
报错的错误码,包含4xx和5xx。单击4xx或5xx前的
图标,可查看详细的错误码、发生次数、占比和错误信息。
发生次数
4xx和5xx错误发生的次数。
占比(%)
该错误码发生次数占全部错误次数的比例。
错误信息
4xx和5xx错误的描述信息。
- “监控”页签:查看该服务的调用次数、调用失败率、输入Tokens大小、输出Tokens大小、平均响应时延等变化趋势。
导出服务调用的监控数据
“服务调用详情”页面提供监控数据导出功能,支持导出所有或指定监控指标折线图对应的数据。
- 在“调用统计”页面的“在线推理”页签,在“服务列表”区域单击目标服务右侧的“查看监控”。
- 在“服务调用详情”页面,按需选择“时间范围”、“服务类型”、“调用方式”和“IP地址”。
关于参数的说明,请参见表4。
- 在页面右上角,单击“导出”。
- 在导出监控数据对话框,按需选择监控指标(默认为全选),然后单击“确定”。
导出的文件为.XLSX格式,每个页签对应一个监控指标折线图数据,由时间列和对应折线图的指标列组成。