文档首页/ MaaS模型即服务/ API参考/ Maas调用统计/ 获取服务指标时间分布统计信息

更新时间：2026-05-11 GMT+08:00

获取服务指标时间分布统计信息

功能介绍

获取服务指标时间分布统计信息接口用于获取服务的指标明细数据。查看该服务的调用次数、调用失败率、调用tokens量、输入Tokens大小、输出Tokens大小、端到端时延、TPM、RPM、QPS、平均生成时长等指标时间变化趋势。仅保存30天内的统计数据。

接口约束

区域限制：仅支持西南-贵阳一区域。
API流量限制：所有用户对该API的总请求次数上限，20秒内不超过80次。
用户流量限制：单个用户对该API的请求次数上限，20秒内不超过1次。
限流响应：超出限流阈值时，API将返回HTTP 429状态码（Too Many Requests）。
重试建议：遇到限流时，建议等待20秒后重试。

URI

POST /v1/{project_id}/maas/monitoring/{service_id}/show-detail-chart

表1 路径参数
参数	是否必选	参数类型	描述
project_id	是	String	参数解释：项目ID。关于如何获取项目ID，请参见获取项目ID和名称。约束限制：不涉及。取值范围：只能由小写英文字母和数字组成，长度32字符。默认取值：不涉及。
service_id	是	String	参数解释：待查询的服务ID列表服务，根据传入的服务ID列表筛选；不传则所有服务ID对应的服务名称。服务ID在创建服务时即可在返回体中获取，也可通过获取服务列表接口获取当前用户拥有的服务，其中service_id字段即为服务ID。约束限制：不涉及。取值范围：每个服务ID长度 1-128 字符，仅支持大小写字母、数字、下划线 (_)、短横线 (-)。默认取值：不涉及。

请求参数

表2 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	是	String	参数解释：用户Token。通过调用IAM服务的获取用户Token接口获取（响应消息头中X-Subject-Token的值）。获取方式请参见认证鉴权。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

表3 请求Body参数
参数	是否必选	参数类型	描述
service_type	是	Integer	参数解释：服务类型。约束限制：不涉及。取值范围：枚举类型，取值如下： 1：我的服务，在“我的服务”页面部署的模型服务，更多信息，请参见部署模型服务。 2：预置服务，在“预置服务”页签开通的模型服务。具体操作，请参见开通预置服务。 3：自定义接入点，在“自定义接入点”页签创建的接入点服务。更多信息，请参见创建自定义接入点。默认取值：不涉及。
api_keys	否	Array of strings	参数解释：API Key列表，根据传入的API Key列表筛选。 Maas的服务支持API Key调用和在线体验两种方式。请参见管理API Key和MaaS在线体验。如果需查询在线体验调用统计信息，可在数组内传入一个空字符串（""）。如果需要查API Key下的调用数据，可在数组内传入API Key。如果不传该入参则查找所有API Key与在线体验下的数据。约束限制：不涉及。取值范围：传入的API Key需满足长度 1-128 字符，仅支持大小写字母、数字、下划线 (_)、短横线 (-)。默认取值：不涉及。
version_id	否	String	参数解释：服务版本ID，不传则查找服务所有版本下的数据。可以根据查询服务版本调用数据接口查询服务的版本ID。约束限制：不涉及。取值范围：长度 1-128 字符，仅支持大小写字母、数字、下划线 (_)、短横线 (-)。默认取值：不涉及。
ips	否	Array of strings	参数解释：IP地址列表，指已产生调用量的客户端源IP地址，不传则查询用户全部IP地址下的数据。可使用查询IP列表接口查询IP地址。约束限制：需符合IP地址格式。取值范围：不涉及。默认取值：不涉及。
start_time	是	Long	参数解释：开始时间，毫秒时间戳。约束限制：结束时间与开始时间相差不超过30天。取值范围：数值大于0，小于等于end_time的取值。默认取值：不涉及。
end_time	是	Long	参数解释：结束时间，毫秒时间戳。约束限制：结束时间与开始时间相差不超过30天。取值范围：数值大于0。默认取值：不涉及。
time_granularity	是	Integer	参数解释：时间粒度。约束限制：时间范围（开始时间和结束时间间隔）与时间精度需满足如下规则：时间范围0-2天，支持精度：按分钟、按小时。时间范围3-7天，支持精度：按小时、按天。时间范围8-30天，支持精度：按天。取值范围：枚举类型，取值为1~3的整数： 1：分钟粒度。 2：小时粒度。 3：天粒度。默认取值：不涉及。
timezone	否	String	参数解释：时区。约束限制：不涉及。取值范围：遵循IANA时区规范（如Asia/Shanghai、UTC）。默认取值：Asia/Shanghai（东八区）。
infer_type	是	String	参数解释：服务的推理类型。取值范围：枚举类型，取值如下： real_time：在线推理。 batch：批量推理（批量推理当前处于受限使用阶段，如需使用请提交工单）。约束限制：不涉及。默认取值：不涉及。
metric	否	String	参数解释：指标名称。约束限制：不涉及。取值范围：枚举类型，取值如下： rpm：查询rpm指标信息。 total_token：查询总tokens数指标。 prompt_token：查询输入tokens数监控指标。 completion_token：查询输出tokens数监控指标。 qps：查询qps监控指标。不传metric：按照之前逻辑查询全部指标信息。默认取值：不涉及。

响应参数

状态码：200

表4 响应Body参数
参数	参数类型	描述
total	Integer	参数解释：返回items总数。取值范围：不涉及。
count	Integer	参数解释：返回items总数。取值范围：不涉及。
items	Array of DetailStatistics objects	参数解释：详细指标统计信息列表，按时间段区分。取值范围：不涉及。

表5 DetailStatistics
参数	参数类型	描述
time	Long	参数解释：时间，毫秒时间戳。取值范围：不涉及。
request_count	Integer	参数解释：调用次数（次）。取值范围：不涉及。
succ_count	Integer	参数解释：调用成功次数（当类型为批量推理时，该参数表示推理成功次数，批量推理当前处于受限使用阶段，如需使用请提交工单）。取值范围：不涉及。
error_count	Integer	参数解释：调用成功次数（当类型为批量推理时，该参数表示推理成功次数，批量推理当前处于受限使用阶段，如需使用请提交工单）。取值范围：不涉及。
error_rate	Double	参数解释：调用失败率（当类型为批量推理时，该参数表示推理失败率，批量推理当前处于受限使用阶段，如需使用请提交工单）。取值范围：0-1。
total_token	Double	参数解释：调用总Token数（千/tokens）。取值范围：不涉及。
avg_total_token	Double	参数解释：平均Token数（千/tokens）。取值范围：不涉及。
max_total_token	Double	参数解释：最大Token数（千/tokens）。取值范围：不涉及。
p50_total_token	Double	参数解释：中位数Token数（千/tokens）。取值范围：不涉及。
p80_total_token	Double	参数解释：80百分位Token数（千/tokens）。取值范围：不涉及。
p90_total_token	Double	参数解释：90百分位Token数（千/tokens）。取值范围：不涉及。
p99_total_token	Double	参数解释：99百分位Token数（千/tokens）。取值范围：不涉及。
prompt_token	Double	参数解释：输入总Token数（千/tokens）。取值范围：不涉及。
avg_prompt_token	Double	参数解释：平均输入Token数（千/tokens）。取值范围：不涉及。
max_prompt_token	Double	参数解释：最大输入Token数（千/tokens）。取值范围：不涉及。
p50_prompt_token	Double	参数解释：中位数输入Token数（千/tokens）。取值范围：不涉及。
p80_prompt_token	Double	参数解释：80百分位输入Token数（千/tokens）。取值范围：不涉及。
p90_prompt_token	Double	参数解释：90百分位输入Token数（千/tokens）。取值范围：不涉及。
p99_prompt_token	Double	参数解释：99百分位输入Token数（千/tokens）。取值范围：不涉及。
completion_token	Double	参数解释：输出总Token数（千/tokens）。取值范围：不涉及。
avg_completion_token	Double	参数解释：平均输出Token（千/tokens）。取值范围：不涉及。
max_completion_token	Double	参数解释：最大输出Token（千/tokens）。取值范围：不涉及。
p50_completion_token	Double	参数解释：中位数输出Token（千/tokens）。取值范围：不涉及。
p80_completion_token	Double	参数解释：80百分位输出Token（千/tokens）。取值范围：不涉及。
p90_completion_token	Double	参数解释：90百分位输出Token（千/tokens）。取值范围：不涉及。
p99_completion_token	Double	参数解释：99百分位输出Token（千/tokens）。取值范围：不涉及。
avg_latency	Double	参数解释：平均端到端时延（毫秒）。取值范围：不涉及。
max_latency	Double	参数解释：最大端到端时延（毫秒）。取值范围：不涉及。
p50_latency	Double	参数解释：中位数端到端时延（毫秒）。取值范围：不涉及。
p80_latency	Double	参数解释：80百分位端到端时延（毫秒）。取值范围：不涉及。
p90_latency	Double	参数解释：90百分位端到端时延（毫秒）。取值范围：不涉及。
p99_latency	Double	参数解释：99百分位端到端时延（毫秒）。取值范围：不涉及。
avg_ttft	Double	参数解释：平均首Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
max_ttft	Double	参数解释：最大首Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p50_ttft	Double	参数解释：中位数首Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p80_ttft	Double	参数解释：80百分位首Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p90_ttft	Double	参数解释：90百分位首Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p99_ttft	Double	参数解释：99百分位首Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
avg_tpot	Double	参数解释：平均增量Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
max_tpot	Double	参数解释：最大增量Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p50_tpot	Double	参数解释：中位数增量Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p80_tpot	Double	参数解释：80百分位增量Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p90_tpot	Double	参数解释：90百分位增量Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
p99_tpot	Double	参数解释：99百分位增量Tokens时延（毫秒），仅统计流式响应。取值范围：不涉及。
rpm	Double	参数解释：每分钟处理的请求数。取值范围：不涉及。
tpm	Double	参数解释：每分钟处理的Tokens数（千tokens/分钟）。取值范围：不涉及。
avg_generation_time	Double	参数解释：平均生成耗时（秒）：平均生成每图片/视频实际花费的时间，仅视频或图片生成类模型。取值范围：不涉及。
cache_token	Double	参数解释：缓存命中数，请求中缓存命中的token数占总输入token数的比例。取值范围：不涉及。
cache_hit_ratio	Double	参数解释：缓存命中率，请求中缓存命中的token数占总输入token数的比例。取值范围：0~1。
total_token_list	Array of GradientIndicatorResult objects	参数解释：总Token数详情，存储该时间段内细分指标数据。当请求参数metric值为total_token时，返回总Token数详情。取值范围：不涉及。
prompt_token_list	Array of GradientIndicatorResult objects	参数解释：输入Token详情，存储该时间段内细分指标数据。当请求参数metric值为prompt_token时，返回输入总token详情。取值范围：不涉及。
completion_token_list	Array of GradientIndicatorResult objects	参数解释：输出Token详情，存储该时间段内细分指标数据。当请求参数metric值为completion_token时，返回输出总token详情。取值范围：不涉及。
rpm_list	Array of GradientIndicatorResult objects	参数解释：RPM详情，存储该时间段内细分指标数据。当请求参数metric值为rpm时，返回rpm详情。取值范围：不涉及。
infer_times	Integer	参数解释：推理总次数（该参数与批量推理有关，批量推理当前处于受限使用阶段，如需使用请提交工单）。取值范围：不涉及。
completion_tasks_count	Integer	参数解释：完成任务数量（该参数与批量推理有关，批量推理当前处于受限使用阶段，如需使用请提交工单）。取值范围：不涉及。
avg_consume_time	Double	参数解释：平均任务处理时长（分钟）（该参数与批量推理有关，批量推理当前处于受限使用阶段，如需使用请提交工单）。取值范围：不涉及。
qps	Integer	参数解释：每秒查询次数。实际显示的是该分钟内的QPS峰值。取值范围：不涉及。

表6 GradientIndicatorResult
参数	参数类型	描述
name	String	参数解释：指标名字。取值范围：枚举类型，取值如下： RPM。总Tokens数。输入Tokens大小。输出Tokens大小。
value	Object	参数解释：指标值，支持int和double类型的值。取值范围：不涉及。

状态码：400

表7 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码，标识错误类型，详情请参考MaaS错误码。取值范围：不涉及。
error_msg	String	参数解释：错误描述信息。详情请参考MaaS错误码。取值范围：不涉及。

请求示例

查询服务ID为4f6d50ec-0e80-4ea0-983b-d0ad1ede7596，版本ID为ac73463d-4453-4d62-a3d9-31b627a116b1的预置服务14天内在线推理文本生成的指标数据信息。

/v1/{{project_id}}/maas/monitoring/4f6d50ec-0e80-4ea0-983b-d0ad1ede7596/show-detail-chart

{
  "service_type" : 2,
  "start_time" : 1768320000000,
  "end_time" : 1769518975857,
  "timezone" : "Asia/Shanghai",
  "time_granularity" : 3,
  "version_id" : "ac73463d-4453-4d62-a3d9-31b627a116b1",
  "infer_type" : "real_time"
}

响应示例

状态码：200

成功响应。

{
  "total" : 14,
  "count" : 14,
  "items" : [ {
    "time" : 1768320000000,
    "request_count" : 35,
    "succ_count" : 13,
    "error_count" : 22,
    "error_rate" : 0.6286,
    "total_token" : 13.149,
    "avg_total_token" : 1.011,
    "max_total_token" : 3.043,
    "p50_total_token" : 0,
    "p80_total_token" : 0.163,
    "p90_total_token" : 1.647,
    "p99_total_token" : 3.043,
    "prompt_token" : 5.445,
    "avg_prompt_token" : 0.419,
    "max_prompt_token" : 2.747,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0.02,
    "p90_prompt_token" : 0.03,
    "p99_prompt_token" : 2.747,
    "completion_token" : 7.704,
    "avg_completion_token" : 0.593,
    "max_completion_token" : 1.828,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0.133,
    "p90_completion_token" : 1.583,
    "p99_completion_token" : 1.828,
    "avg_latency" : 22811.23,
    "max_latency" : 70615,
    "p50_latency" : 0,
    "p80_latency" : 5839,
    "p90_latency" : 59330,
    "p99_latency" : 70615,
    "avg_ttft" : 522.79,
    "max_ttft" : 1240.61,
    "p50_ttft" : 373.97,
    "p80_ttft" : 634.03,
    "p90_ttft" : 1012.55,
    "p99_ttft" : 1240.61,
    "avg_tpot" : 36.12,
    "max_tpot" : 43,
    "p50_tpot" : 37.27,
    "p80_tpot" : 38.3,
    "p90_tpot" : 39.54,
    "p99_tpot" : 43,
    "rpm" : 0.02,
    "tpm" : 0.009,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1768406400000,
    "request_count" : 3,
    "succ_count" : 1,
    "error_count" : 2,
    "error_rate" : 0.6667,
    "total_token" : 1.533,
    "avg_total_token" : 1.533,
    "max_total_token" : 1.533,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 1.533,
    "p99_total_token" : 1.533,
    "prompt_token" : 0.013,
    "avg_prompt_token" : 0.013,
    "max_prompt_token" : 0.013,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0.013,
    "p99_prompt_token" : 0.013,
    "completion_token" : 1.52,
    "avg_completion_token" : 1.52,
    "max_completion_token" : 1.52,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 1.52,
    "p99_completion_token" : 1.52,
    "avg_latency" : 56872,
    "max_latency" : 56872,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 56872,
    "p99_latency" : 56872,
    "avg_ttft" : 258.86,
    "max_ttft" : 258.86,
    "p50_ttft" : 258.86,
    "p80_ttft" : 258.86,
    "p90_ttft" : 258.86,
    "p99_ttft" : 258.86,
    "avg_tpot" : 37.27,
    "max_tpot" : 37.27,
    "p50_tpot" : 37.27,
    "p80_tpot" : 37.27,
    "p90_tpot" : 37.27,
    "p99_tpot" : 37.27,
    "rpm" : 0,
    "tpm" : 0.001,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1768492800000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1768579200000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1768665600000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1768752000000,
    "request_count" : 3,
    "succ_count" : 3,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0.533,
    "avg_total_token" : 0.178,
    "max_total_token" : 0.228,
    "p50_total_token" : 0.199,
    "p80_total_token" : 0.199,
    "p90_total_token" : 0.228,
    "p99_total_token" : 0.228,
    "prompt_token" : 0.264,
    "avg_prompt_token" : 0.088,
    "max_prompt_token" : 0.139,
    "p50_prompt_token" : 0.105,
    "p80_prompt_token" : 0.105,
    "p90_prompt_token" : 0.139,
    "p99_prompt_token" : 0.139,
    "completion_token" : 0.269,
    "avg_completion_token" : 0.09,
    "max_completion_token" : 0.123,
    "p50_completion_token" : 0.086,
    "p80_completion_token" : 0.086,
    "p90_completion_token" : 0.123,
    "p99_completion_token" : 0.123,
    "avg_latency" : 2962.33,
    "max_latency" : 5112,
    "p50_latency" : 2129,
    "p80_latency" : 2129,
    "p90_latency" : 5112,
    "p99_latency" : 5112,
    "avg_ttft" : 349,
    "max_ttft" : 424.79,
    "p50_ttft" : 422.49,
    "p80_ttft" : 422.49,
    "p90_ttft" : 424.79,
    "p99_ttft" : 424.79,
    "avg_tpot" : 27.02,
    "max_tpot" : 40.27,
    "p50_tpot" : 20.7,
    "p80_tpot" : 20.7,
    "p90_tpot" : 40.27,
    "p99_tpot" : 40.27,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1768838400000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1768924800000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1769011200000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1769097600000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1769184000000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1769270400000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1769356800000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  }, {
    "time" : 1769443200000,
    "request_count" : 0,
    "succ_count" : 0,
    "error_count" : 0,
    "error_rate" : 0,
    "total_token" : 0,
    "avg_total_token" : 0,
    "max_total_token" : 0,
    "p50_total_token" : 0,
    "p80_total_token" : 0,
    "p90_total_token" : 0,
    "p99_total_token" : 0,
    "prompt_token" : 0,
    "avg_prompt_token" : 0,
    "max_prompt_token" : 0,
    "p50_prompt_token" : 0,
    "p80_prompt_token" : 0,
    "p90_prompt_token" : 0,
    "p99_prompt_token" : 0,
    "completion_token" : 0,
    "avg_completion_token" : 0,
    "max_completion_token" : 0,
    "p50_completion_token" : 0,
    "p80_completion_token" : 0,
    "p90_completion_token" : 0,
    "p99_completion_token" : 0,
    "avg_latency" : 0,
    "max_latency" : 0,
    "p50_latency" : 0,
    "p80_latency" : 0,
    "p90_latency" : 0,
    "p99_latency" : 0,
    "avg_ttft" : 0,
    "max_ttft" : 0,
    "p50_ttft" : 0,
    "p80_ttft" : 0,
    "p90_ttft" : 0,
    "p99_ttft" : 0,
    "avg_tpot" : 0,
    "max_tpot" : 0,
    "p50_tpot" : 0,
    "p80_tpot" : 0,
    "p90_tpot" : 0,
    "p99_tpot" : 0,
    "rpm" : 0,
    "tpm" : 0,
    "avg_generation_time" : 0,
    "cache_token" : 0,
    "cache_hit_ratio" : 0,
    "total_token_list" : null,
    "prompt_token_list" : null,
    "completion_token_list" : null,
    "rpm_list" : null,
    "infer_times" : 0,
    "completion_tasks_count" : 0,
    "avg_consume_time" : 0,
    "qps" : 0
  } ]
}

状态码：400

失败响应。

{
  "error_code" : "ModelArts.0104",
  "error_msg" : "推理类型 realtime 无效，推理类型必须是 real_time 或 batch。"
}

状态码

状态码	描述
200	成功响应。
400	失败响应。

错误码

请参见错误码。

父主题： Maas调用统计

上一篇：获取服务统计信息列表

下一篇：获取服务错误明细列表

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问