获取服务指标时间分布统计信息
功能介绍
获取服务指标时间分布统计信息接口用于获取服务的指标明细数据。查看该服务的调用次数、调用失败率、调用tokens量、输入Tokens大小、输出Tokens大小、端到端时延、TPM、RPM、QPS、平均生成时长等指标时间变化趋势。仅保存30天内的统计数据。
接口约束
- 区域限制:仅支持西南-贵阳一区域。
- API流量限制:所有用户对该API的总请求次数上限,20秒内不超过80次。
- 用户流量限制:单个用户对该API的请求次数上限,20秒内不超过1次。
- 限流响应:超出限流阈值时,API将返回HTTP 429状态码(Too Many Requests)。
- 重试建议:遇到限流时,建议等待20秒后重试。
URI
POST /v1/{project_id}/maas/monitoring/{service_id}/show-detail-chart
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
project_id |
是 |
String |
参数解释:项目ID。关于如何获取项目ID,请参见获取项目ID和名称。 约束限制:不涉及。 取值范围:只能由小写英文字母和数字组成,长度32字符。 默认取值:不涉及。 |
|
service_id |
是 |
String |
参数解释:待查询的服务ID列表服务,根据传入的服务ID列表筛选;不传则所有服务ID对应的服务名称。服务ID在创建服务时即可在返回体中获取,也可通过获取服务列表接口获取当前用户拥有的服务,其中service_id字段即为服务ID。 约束限制:不涉及。 取值范围:每个服务ID长度 1-128 字符,仅支持大小写字母、数字、下划线 (_)、短横线 (-)。 默认取值:不涉及。 |
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
X-Auth-Token |
是 |
String |
参数解释:用户Token。通过调用IAM服务的获取用户Token接口获取(响应消息头中X-Subject-Token的值)。获取方式请参见认证鉴权。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
service_type |
是 |
Integer |
参数解释:服务类型。 约束限制:不涉及。 取值范围:枚举类型,取值如下:
默认取值:不涉及。 |
|
api_keys |
否 |
Array of strings |
参数解释:API Key列表,根据传入的API Key列表筛选。 Maas的服务支持API Key调用和在线体验两种方式。请参见管理API Key和MaaS在线体验。
约束限制:不涉及。 取值范围: 传入的API Key需满足长度 1-128 字符,仅支持大小写字母、数字、下划线 (_)、短横线 (-)。 默认取值:不涉及。 |
|
version_id |
否 |
String |
参数解释:服务版本ID,不传则查找服务所有版本下的数据。可以根据查询服务版本调用数据接口查询服务的版本ID。 约束限制:不涉及。 取值范围:长度 1-128 字符,仅支持大小写字母、数字、下划线 (_)、短横线 (-)。 默认取值:不涉及。 |
|
ips |
否 |
Array of strings |
参数解释:IP地址列表,指已产生调用量的客户端源IP地址,不传则查询用户全部IP地址下的数据。可使用查询IP列表接口查询IP地址。 约束限制:需符合IP地址格式。 取值范围:不涉及。 默认取值:不涉及。 |
|
start_time |
是 |
Long |
参数解释:开始时间,毫秒时间戳。 约束限制:结束时间与开始时间相差不超过30天。 取值范围:数值大于0,小于等于end_time的取值。 默认取值:不涉及。 |
|
end_time |
是 |
Long |
参数解释:结束时间,毫秒时间戳。 约束限制:结束时间与开始时间相差不超过30天。 取值范围:数值大于0。 默认取值:不涉及。 |
|
time_granularity |
是 |
Integer |
参数解释:时间粒度。 约束限制:时间范围(开始时间和结束时间间隔)与时间精度需满足如下规则:
取值范围:枚举类型,取值为1~3的整数:
默认取值:不涉及。 |
|
timezone |
否 |
String |
参数解释:时区。 约束限制:不涉及。 取值范围:遵循IANA时区规范(如Asia/Shanghai、UTC)。 默认取值:Asia/Shanghai(东八区)。 |
|
infer_type |
是 |
String |
参数解释:服务的推理类型。 取值范围:枚举类型,取值如下:
约束限制:不涉及。 默认取值:不涉及。 |
|
metric |
否 |
String |
参数解释:指标名称。 约束限制:不涉及。 取值范围:枚举类型,取值如下:
默认取值:不涉及。 |
响应参数
状态码:200
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
total |
Integer |
参数解释:返回items总数。 取值范围:不涉及。 |
|
count |
Integer |
参数解释:返回items总数。 取值范围:不涉及。 |
|
items |
Array of DetailStatistics objects |
参数解释:详细指标统计信息列表,按时间段区分。 取值范围:不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
time |
Long |
参数解释:时间,毫秒时间戳。 取值范围:不涉及。 |
|
request_count |
Integer |
参数解释:调用次数(次)。 取值范围:不涉及。 |
|
succ_count |
Integer |
参数解释:调用成功次数(当类型为批量推理时,该参数表示推理成功次数,批量推理当前处于受限使用阶段,如需使用请提交工单)。 取值范围:不涉及。 |
|
error_count |
Integer |
参数解释:调用成功次数(当类型为批量推理时,该参数表示推理成功次数,批量推理当前处于受限使用阶段,如需使用请提交工单)。 取值范围:不涉及。 |
|
error_rate |
Double |
参数解释:调用失败率(当类型为批量推理时,该参数表示推理失败率,批量推理当前处于受限使用阶段,如需使用请提交工单)。 取值范围:0-1。 |
|
total_token |
Double |
参数解释:调用总Token数(千/tokens)。 取值范围:不涉及。 |
|
avg_total_token |
Double |
参数解释:平均Token数(千/tokens)。 取值范围:不涉及。 |
|
max_total_token |
Double |
参数解释:最大Token数(千/tokens)。 取值范围:不涉及。 |
|
p50_total_token |
Double |
参数解释:中位数Token数(千/tokens)。 取值范围:不涉及。 |
|
p80_total_token |
Double |
参数解释:80百分位Token数(千/tokens)。 取值范围:不涉及。 |
|
p90_total_token |
Double |
参数解释:90百分位Token数(千/tokens)。 取值范围:不涉及。 |
|
p99_total_token |
Double |
参数解释:99百分位Token数(千/tokens)。 取值范围:不涉及。 |
|
prompt_token |
Double |
参数解释:输入总Token数(千/tokens)。 取值范围:不涉及。 |
|
avg_prompt_token |
Double |
参数解释:平均输入Token数(千/tokens)。 取值范围:不涉及。 |
|
max_prompt_token |
Double |
参数解释:最大输入Token数(千/tokens)。 取值范围:不涉及。 |
|
p50_prompt_token |
Double |
参数解释:中位数输入Token数(千/tokens)。 取值范围:不涉及。 |
|
p80_prompt_token |
Double |
参数解释:80百分位输入Token数(千/tokens)。 取值范围:不涉及。 |
|
p90_prompt_token |
Double |
参数解释:90百分位输入Token数(千/tokens)。 取值范围:不涉及。 |
|
p99_prompt_token |
Double |
参数解释:99百分位输入Token数(千/tokens)。 取值范围:不涉及。 |
|
completion_token |
Double |
参数解释:输出总Token数(千/tokens)。 取值范围:不涉及。 |
|
avg_completion_token |
Double |
参数解释:平均输出Token(千/tokens)。 取值范围:不涉及。 |
|
max_completion_token |
Double |
参数解释:最大输出Token(千/tokens)。 取值范围:不涉及。 |
|
p50_completion_token |
Double |
参数解释:中位数输出Token(千/tokens)。 取值范围:不涉及。 |
|
p80_completion_token |
Double |
参数解释:80百分位输出Token(千/tokens)。 取值范围:不涉及。 |
|
p90_completion_token |
Double |
参数解释:90百分位输出Token(千/tokens)。 取值范围:不涉及。 |
|
p99_completion_token |
Double |
参数解释:99百分位输出Token(千/tokens)。 取值范围:不涉及。 |
|
avg_latency |
Double |
参数解释:平均端到端时延(毫秒)。 取值范围:不涉及。 |
|
max_latency |
Double |
参数解释:最大端到端时延(毫秒)。 取值范围:不涉及。 |
|
p50_latency |
Double |
参数解释:中位数端到端时延(毫秒)。 取值范围:不涉及。 |
|
p80_latency |
Double |
参数解释:80百分位端到端时延(毫秒)。 取值范围:不涉及。 |
|
p90_latency |
Double |
参数解释:90百分位端到端时延(毫秒)。 取值范围:不涉及。 |
|
p99_latency |
Double |
参数解释:99百分位端到端时延(毫秒)。 取值范围:不涉及。 |
|
avg_ttft |
Double |
参数解释:平均首Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
max_ttft |
Double |
参数解释:最大首Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p50_ttft |
Double |
参数解释:中位数首Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p80_ttft |
Double |
参数解释:80百分位首Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p90_ttft |
Double |
参数解释:90百分位首Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p99_ttft |
Double |
参数解释:99百分位首Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
avg_tpot |
Double |
参数解释:平均增量Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
max_tpot |
Double |
参数解释:最大增量Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p50_tpot |
Double |
参数解释:中位数增量Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p80_tpot |
Double |
参数解释:80百分位增量Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p90_tpot |
Double |
参数解释:90百分位增量Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
p99_tpot |
Double |
参数解释:99百分位增量Tokens时延(毫秒),仅统计流式响应。 取值范围:不涉及。 |
|
rpm |
Double |
参数解释:每分钟处理的请求数。 取值范围:不涉及。 |
|
tpm |
Double |
参数解释:每分钟处理的Tokens数(千tokens/分钟)。 取值范围:不涉及。 |
|
avg_generation_time |
Double |
参数解释:平均生成耗时(秒):平均生成每图片/视频实际花费的时间,仅视频或图片生成类模型。 取值范围:不涉及。 |
|
cache_token |
Double |
参数解释:缓存命中数,请求中缓存命中的token数占总输入token数的比例。 取值范围:不涉及。 |
|
cache_hit_ratio |
Double |
参数解释:缓存命中率,请求中缓存命中的token数占总输入token数的比例 。 取值范围:0~1。 |
|
total_token_list |
Array of GradientIndicatorResult objects |
参数解释:总Token数详情,存储该时间段内细分指标数据。当请求参数metric值为total_token时,返回总Token数详情。 取值范围:不涉及。 |
|
prompt_token_list |
Array of GradientIndicatorResult objects |
参数解释:输入Token详情,存储该时间段内细分指标数据。当请求参数metric值为prompt_token时,返回输入总token详情。 取值范围:不涉及。 |
|
completion_token_list |
Array of GradientIndicatorResult objects |
参数解释:输出Token详情,存储该时间段内细分指标数据。当请求参数metric值为completion_token时,返回输出总token详情。 取值范围:不涉及。 |
|
rpm_list |
Array of GradientIndicatorResult objects |
参数解释:RPM详情,存储该时间段内细分指标数据。当请求参数metric值为rpm时,返回rpm详情。 取值范围:不涉及。 |
|
infer_times |
Integer |
参数解释:推理总次数(该参数与批量推理有关,批量推理当前处于受限使用阶段,如需使用请提交工单)。 取值范围:不涉及。 |
|
completion_tasks_count |
Integer |
参数解释:完成任务数量(该参数与批量推理有关,批量推理当前处于受限使用阶段,如需使用请提交工单)。 取值范围:不涉及。 |
|
avg_consume_time |
Double |
参数解释:平均任务处理时长(分钟)(该参数与批量推理有关,批量推理当前处于受限使用阶段,如需使用请提交工单)。 取值范围:不涉及。 |
|
qps |
Integer |
参数解释:每秒查询次数。实际显示的是该分钟内的QPS峰值。 取值范围:不涉及。 |
|
参数 |
参数类型 |
描述 |
|---|---|---|
|
name |
String |
参数解释:指标名字。 取值范围:枚举类型,取值如下:
|
|
value |
Object |
参数解释:指标值,支持int和double类型的值。 取值范围:不涉及。 |
状态码:400
请求示例
查询服务ID为4f6d50ec-0e80-4ea0-983b-d0ad1ede7596,版本ID为ac73463d-4453-4d62-a3d9-31b627a116b1的预置服务14天内在线推理文本生成的指标数据信息。
/v1/{{project_id}}/maas/monitoring/4f6d50ec-0e80-4ea0-983b-d0ad1ede7596/show-detail-chart
{
"service_type" : 2,
"start_time" : 1768320000000,
"end_time" : 1769518975857,
"timezone" : "Asia/Shanghai",
"time_granularity" : 3,
"version_id" : "ac73463d-4453-4d62-a3d9-31b627a116b1",
"infer_type" : "real_time"
}
响应示例
状态码:200
成功响应。
{
"total" : 14,
"count" : 14,
"items" : [ {
"time" : 1768320000000,
"request_count" : 35,
"succ_count" : 13,
"error_count" : 22,
"error_rate" : 0.6286,
"total_token" : 13.149,
"avg_total_token" : 1.011,
"max_total_token" : 3.043,
"p50_total_token" : 0,
"p80_total_token" : 0.163,
"p90_total_token" : 1.647,
"p99_total_token" : 3.043,
"prompt_token" : 5.445,
"avg_prompt_token" : 0.419,
"max_prompt_token" : 2.747,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0.02,
"p90_prompt_token" : 0.03,
"p99_prompt_token" : 2.747,
"completion_token" : 7.704,
"avg_completion_token" : 0.593,
"max_completion_token" : 1.828,
"p50_completion_token" : 0,
"p80_completion_token" : 0.133,
"p90_completion_token" : 1.583,
"p99_completion_token" : 1.828,
"avg_latency" : 22811.23,
"max_latency" : 70615,
"p50_latency" : 0,
"p80_latency" : 5839,
"p90_latency" : 59330,
"p99_latency" : 70615,
"avg_ttft" : 522.79,
"max_ttft" : 1240.61,
"p50_ttft" : 373.97,
"p80_ttft" : 634.03,
"p90_ttft" : 1012.55,
"p99_ttft" : 1240.61,
"avg_tpot" : 36.12,
"max_tpot" : 43,
"p50_tpot" : 37.27,
"p80_tpot" : 38.3,
"p90_tpot" : 39.54,
"p99_tpot" : 43,
"rpm" : 0.02,
"tpm" : 0.009,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1768406400000,
"request_count" : 3,
"succ_count" : 1,
"error_count" : 2,
"error_rate" : 0.6667,
"total_token" : 1.533,
"avg_total_token" : 1.533,
"max_total_token" : 1.533,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 1.533,
"p99_total_token" : 1.533,
"prompt_token" : 0.013,
"avg_prompt_token" : 0.013,
"max_prompt_token" : 0.013,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0.013,
"p99_prompt_token" : 0.013,
"completion_token" : 1.52,
"avg_completion_token" : 1.52,
"max_completion_token" : 1.52,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 1.52,
"p99_completion_token" : 1.52,
"avg_latency" : 56872,
"max_latency" : 56872,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 56872,
"p99_latency" : 56872,
"avg_ttft" : 258.86,
"max_ttft" : 258.86,
"p50_ttft" : 258.86,
"p80_ttft" : 258.86,
"p90_ttft" : 258.86,
"p99_ttft" : 258.86,
"avg_tpot" : 37.27,
"max_tpot" : 37.27,
"p50_tpot" : 37.27,
"p80_tpot" : 37.27,
"p90_tpot" : 37.27,
"p99_tpot" : 37.27,
"rpm" : 0,
"tpm" : 0.001,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1768492800000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1768579200000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1768665600000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1768752000000,
"request_count" : 3,
"succ_count" : 3,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0.533,
"avg_total_token" : 0.178,
"max_total_token" : 0.228,
"p50_total_token" : 0.199,
"p80_total_token" : 0.199,
"p90_total_token" : 0.228,
"p99_total_token" : 0.228,
"prompt_token" : 0.264,
"avg_prompt_token" : 0.088,
"max_prompt_token" : 0.139,
"p50_prompt_token" : 0.105,
"p80_prompt_token" : 0.105,
"p90_prompt_token" : 0.139,
"p99_prompt_token" : 0.139,
"completion_token" : 0.269,
"avg_completion_token" : 0.09,
"max_completion_token" : 0.123,
"p50_completion_token" : 0.086,
"p80_completion_token" : 0.086,
"p90_completion_token" : 0.123,
"p99_completion_token" : 0.123,
"avg_latency" : 2962.33,
"max_latency" : 5112,
"p50_latency" : 2129,
"p80_latency" : 2129,
"p90_latency" : 5112,
"p99_latency" : 5112,
"avg_ttft" : 349,
"max_ttft" : 424.79,
"p50_ttft" : 422.49,
"p80_ttft" : 422.49,
"p90_ttft" : 424.79,
"p99_ttft" : 424.79,
"avg_tpot" : 27.02,
"max_tpot" : 40.27,
"p50_tpot" : 20.7,
"p80_tpot" : 20.7,
"p90_tpot" : 40.27,
"p99_tpot" : 40.27,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1768838400000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1768924800000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1769011200000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1769097600000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1769184000000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1769270400000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1769356800000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
}, {
"time" : 1769443200000,
"request_count" : 0,
"succ_count" : 0,
"error_count" : 0,
"error_rate" : 0,
"total_token" : 0,
"avg_total_token" : 0,
"max_total_token" : 0,
"p50_total_token" : 0,
"p80_total_token" : 0,
"p90_total_token" : 0,
"p99_total_token" : 0,
"prompt_token" : 0,
"avg_prompt_token" : 0,
"max_prompt_token" : 0,
"p50_prompt_token" : 0,
"p80_prompt_token" : 0,
"p90_prompt_token" : 0,
"p99_prompt_token" : 0,
"completion_token" : 0,
"avg_completion_token" : 0,
"max_completion_token" : 0,
"p50_completion_token" : 0,
"p80_completion_token" : 0,
"p90_completion_token" : 0,
"p99_completion_token" : 0,
"avg_latency" : 0,
"max_latency" : 0,
"p50_latency" : 0,
"p80_latency" : 0,
"p90_latency" : 0,
"p99_latency" : 0,
"avg_ttft" : 0,
"max_ttft" : 0,
"p50_ttft" : 0,
"p80_ttft" : 0,
"p90_ttft" : 0,
"p99_ttft" : 0,
"avg_tpot" : 0,
"max_tpot" : 0,
"p50_tpot" : 0,
"p80_tpot" : 0,
"p90_tpot" : 0,
"p99_tpot" : 0,
"rpm" : 0,
"tpm" : 0,
"avg_generation_time" : 0,
"cache_token" : 0,
"cache_hit_ratio" : 0,
"total_token_list" : null,
"prompt_token_list" : null,
"completion_token_list" : null,
"rpm_list" : null,
"infer_times" : 0,
"completion_tasks_count" : 0,
"avg_consume_time" : 0,
"qps" : 0
} ]
}
状态码:400
失败响应。
{
"error_code" : "ModelArts.0104",
"error_msg" : "推理类型 realtime 无效,推理类型必须是 real_time 或 batch。"
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
成功响应。 |
|
400 |
失败响应。 |
错误码
请参见错误码。