文档首页/ AI开发平台ModelArts/ ModelArts Studio（MaaS）用户指南/ ModelArts Studio（MaaS）管理与统计/ 查看ModelArts Studio（MaaS）调用数据和监控指标/ 在ModelArts Studio（MaaS）查看在线推理的调用数据和监控指标

更新时间：2025-11-14 GMT+08:00

查看PDF

在ModelArts Studio（MaaS）查看在线推理的调用数据和监控指标

MaaS提供调用统计功能，支持查看我的服务、预置服务-商用服务、预置服务-免费服务、自定义接入点在指定时间段内的调用数据和监控指标详情，包括总调用次数、总调用失败次数、总调用Tokens数、输入Tokens数、输出Tokens数、端到端时延等信息，并以分钟为最小时间粒度展示数据趋势，帮助您了解服务的使用情况和性能变化，从而更有效地进行模型评估、问题定位、故障排除和性能优化。

操作场景

资源消耗监控：跟踪模型服务的Tokens使用量，避免超额使用。
成本分析：根据输入/输出Tokens的分布，优化调用策略以降低成本。
性能指标：支持查看模型的多种常见性能指标，进行性能优化。
服务优化：通过分析调用频率与Tokens消耗的关系，调整服务配置或扩容计划。
异常排查：快速定位特定时间段的调用量激增、异常消耗和调用失败问题。

约束限制

统计范围：
- 仅统计预置服务-商用服务、预置服务-免费服务、自定义接入点、我的服务的调用数据。2025年8月21日前的商用服务历史调用数据，无法区分版本。
- 调用统计数据仅统计通过API接口调用和在线体验产生的数据。
数据更新延迟：调用数据统计可能存在1~2小时的延迟，数据不能实时反映最新调用情况。
时间范围限制：
- 支持预设时间段：今天、昨天、近3天、近7天、近14天。
- 自定义时间段：最长不超过30天。

计费说明

调用统计功能本身不收费。
在MaaS进行模型调用时，可能涉及到相关资源收费。具体信息，请参见模型推理计费项。

前提条件

预置服务或我的服务满足以下任一条件：

预置服务-商用服务：已开通预置服务的商用服务并产生调用记录。具体操作，请参见在ModelArts Studio（MaaS）预置服务中开通商用服务。
预置服务-免费服务：已使用免费服务并产生调用记录。具体操作，请参见在ModelArts Studio（MaaS）预置服务中体验免费服务。
自定义接入点：已创建自定义接入点并产生调用记录。具体操作，请参见在ModelArts Studio（MaaS）中创建自定义接入点。
我的服务：已在“我的服务”页面部署模型服务并产生调用记录。具体操作，请参见使用ModelArts Studio（MaaS）部署模型服务。

查看服务调用的监控数据

在“调用统计”页面，您可以查看整体服务或单个服务通过API接口调用产生的数据详情。

登录ModelArts Studio（MaaS）控制台，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“管理与统计 > 调用统计”。

在“调用统计”页面的“在线推理”页签，按需选择“时间范围”、“服务类型”、“调用方式”和“IP地址”。

表1 调用统计筛选参数说明
参数		说明
时间范围		支持按照今天、昨天、近三天、近7天、近14天、自定义时间段统计服务的调用数据。时间范围与时间精度过滤规则：时间范围≤1天，支持精度：按分钟、按小时、按天。时间范围2-7天，支持精度：按小时、按天。时间范围8-30天，支持精度：按天。
服务类型	我的服务	在“我的服务”页面部署的模型服务。更多信息，请参见使用ModelArts Studio（MaaS）部署模型服务。
	预置服务-商用服务	在“预置服务 > 商用服务”页签开通的商用服务。更多信息，请参见在ModelArts Studio（MaaS）预置服务中开通商用服务。
	预置服务-免费服务	在“预置服务 > 免费服务”页签提供的免费服务。更多信息，请参见在ModelArts Studio（MaaS）预置服务中体验免费服务。
	自定义接入点	在“自定义接入点”页签创建的接入点服务。更多信息，请参见在ModelArts Studio（MaaS）中创建自定义接入点。
调用方式		支持API Key调用和在线体验。 API Key调用：调用MaaS部署的模型服务时，使用API Key进行鉴权认证，默认为“全部API Key”，您也可以按需勾选API Key。更多信息，请参见调用ModelArts Studio（MaaS）部署的模型服务和在ModelArts Studio（MaaS）管理API Key。在线体验：在线体验模型服务产生的调用数据。更多信息，请参见ModelArts Studio（MaaS）在线体验。
IP地址		已产生调用量的客户端源IP地址（公网IP），来源于APIG日志中的http_x_forwarded_for字段值。当该字段包含多个值时，系统将采用第一个值；当字段值为-时，显示为空字符串。 IP地址默认显示为“全部”，您也可以按需勾选IP地址。

在“在线推理”页签，查看整体服务的总调用次数、总调用失败次数、总调用Tokens数等信息。

监控指标默认保留三位小数。

表2 整体服务的参数说明
参数	说明
总调用次数	服务的调用总次数。
总调用失败次数	服务的调用失败总次数，即4xx和5xx错误的总和。
总调用Tokens数	服务的调用总Tokens数。
输入Tokens数	服务的调用输入Tokens数。
输出Tokens数	服务的调用输出Tokens数。

在“在线推理”页签的“服务列表”区域，查看单个服务的调用次数、调用失败次数、调用失败率等信息。

服务列表只显示已开通的预置服务-商用服务、有效期内的预置服务-免费服务、已创建的自定义接入点或已部署成功的我的服务。

表3 服务列表参数说明
参数	说明
服务名称/版本	调用服务的名称或版本。仅商用服务支持服务版本。您可以单击图标，查看服务各版本的统计信息。
调用次数	服务的调用次数。
调用失败次数	服务调用失败的次数。
调用失败率（%）	调用失败次数占调用总次数的比例。
调用总Tokens数（千tokens）	服务调用的总Tokens数。
输入Tokens数（千tokens）	输入的总Tokens数。
输出Tokens数（千tokens）	输出的总Tokens数。
端到端时延 (ms)	单位时间内成功请求的端到端时延。
首Token时延（ms）	从接收请求到生成第一个输出Token所需的时间。
增量Token时延（ms）	生成后续每个输出Token所需的时间间隔。
平均生成时长（s）	平均生成每图片/视频实际花费的时间。

如果指标显示为“-”，表示服务不涉及该指标。“服务调用详情”的“监控”页签，仅显示服务涉及的指标。

在“在线推理”页签的“服务列表”区域，单击目标服务右侧的“查看监控”，在“服务调用详情”页面的“监控”或“调用失败明细”页签查看调用相关信息。

在页面上方，您可以单击服务名称进行切换，也可以按需选择服务的版本（仅商用服务支持服务版本）。服务切换只显示已开通的预置服务-商用服务、有效期内的预置服务-免费服务、已创建的自定义接入点或已部署成功的我的服务。

“监控”页签：查看该服务的调用次数、调用失败率、输入Tokens大小、输出Tokens大小、端到端时延等变化趋势。

表4 监控参数说明
参数		说明
筛选项	时间范围	默认为在“在线推理”页签选择的时间范围，您也可以按需修改。
	时间精度	时间精度与选择的时间范围有关，过滤规则如下：时间范围≤1天：支持按分钟、小时、天进行统计。时间范围为2~7天：支持按小时、天进行统计。时间范围为8~30天：支持按天进行统计。
	调用方式	默认为在“在线推理”页签选择的调用方式，您也可以按需修改。
	IP地址	默认为在“在线推理”页签选择的IP地址，您也可以按需修改。
监控指标	调用次数（次）	服务调用、成功、失败的次数。
	调用tokens量（千tokens）	单位时间内服务的调用总tokens数。
	首Token时延（ms）	从接收请求到生成第一个输出Token所需的时间，仅统计流式响应。受限于模型版本约束，部分模型版本在非流式场景下不支持该指标展示，请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作，请参见在ModelArts Studio（MaaS）升级模型服务。 AVG：首Token时延的平均值。 MAX：首Token时延的最大值。 P50：50%的首Token时延低于该值。 P80：80%的首Token时延低于该值。 P90：90%的首Token时延低于该值。 P99：99%的首Token时延低于该值。
	输入Tokens大小（千tokens）	输入Token长度。 AVG：输入Token长度的平均值。 MAX：输入Token长度的最大值。 P50：50%的输入Token长度低于该值。 P80：80%的输入Token长度低于该值。 P90：90%的输入Token长度低于该值。 P99：99%的输入Token长度低于该值。
	RPM（次/分钟）	每分钟处理的请求数。
	调用失败率（%）	调用失败次数占调用总次数的比例。
	错误发生次数	各错误码的发生次数。
	端到端时延 (ms)	单位时间内成功请求的端到端时延。 AVG：端到端时延的平均值。 MAX：端到端时延的最大值。 P50：50%的端到端时延低于该值。 P80：80%的端到端时延低于该值。 P90：90%的端到端时延低于该值。 P99：99%的端到端时延低于该值。
	增量Token时延（ms）	生成后续每个输出Token所需的时间间隔，仅统计流式响应。受限于模型版本约束，部分模型版本在非流式场景下不支持该指标展示，请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作，请参见在ModelArts Studio（MaaS）升级模型服务。 AVG：增量Token时延的平均值。 MAX：增量Token时延的最大值。 P50：50%的增量Token时延低于该值。 P80：80%的增量Token时延低于该值。 P90：90%的增量Token时延低于该值。 P99：99%的增量Token时延低于该值。
	输出Tokens大小（千tokens）	输出Token长度。 AVG：输出Token长度的平均值。 MAX：输出Token长度的最大值。 P50：50%的输出Token长度低于该值。 P80：80%的输出Token长度低于该值。 P90：90%的输出Token长度低于该值。 P99：99%的输出Token长度低于该值。
	TPM（千tokens/分钟）	每分钟处理的Tokens数（输入+输出）。
	平均生成时长（s）	平均生成每图片/视频实际花费的时间。

“调用失败明细”页签：查看调用失败的相关信息，如错误码、发生次数、错误信息等，进行问题定位和修复等。

表5 调用失败明细参数说明
参数		说明
筛选项	时间范围	默认为在“在线推理”页签选择的时间范围，您也可以按需修改。
	调用方式	默认为在“在线推理”页签选择的调用方式，您也可以按需修改。
	IP地址	默认为在“在线推理”页签选择的IP地址，您也可以按需修改。
错误信息	错误码	报错的错误码，包含4xx和5xx。单击4xx或5xx前的图标，可查看详细的错误码、发生次数、占比和错误信息。
	发生次数	4xx和5xx错误发生的次数。
	占比（%）	该错误码发生次数占全部错误次数的比例。
	错误信息	4xx和5xx错误的描述信息。

导出服务调用的监控数据

“服务调用详情”页面提供监控数据导出功能，支持导出所有或指定监控指标折线图对应的数据。

在“调用统计”页面的“在线推理”页签，在“服务列表”区域单击目标服务右侧的“查看监控”。
在“服务调用详情”页面，按需选择“时间范围”、“服务类型”、“调用方式”和“IP地址”。
关于参数的说明，请参见表4。
在页面右上角，单击“导出”。
在导出监控数据对话框，按需选择监控指标（默认为全选），然后单击“确定”。
导出的文件为.XLSX格式，每个页签对应一个监控指标折线图数据，由时间列和对应折线图的指标列组成。

常见问题

为什么调用了模型，但是查不到消耗Tokens数等信息？
由于数据更新存在延迟，消耗Tokens数等统计数据的更新延迟为小时级别，请耐心等待后再查询。
输入和输出Tokens的统计逻辑是什么？
- 输入Tokens：用户请求中的文本经过分词后的Token总数。
- 输出Tokens：模型响应结果的Token总数，包含终止符。

父主题： 查看ModelArts Studio（MaaS）调用数据和监控指标

上一篇：查看ModelArts Studio（MaaS）调用数据和监控指标

下一篇：在CES查看ModelArts Studio（MaaS）调用数据和监控指标

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问