文档首页/ 智果(AgentArts)智能体平台/ API参考/ API/ 评估/ 评估任务管理/ 获取评估任务统计结果 - ShowOpsEvaluationTasksChartsCompareResult
更新时间:2026-06-10 GMT+08:00
分享

获取评估任务统计结果 - ShowOpsEvaluationTasksChartsCompareResult

功能介绍

该接口用于统计不同评估任务的对比结果报告,包含评估器得分情况、得分概览、任务消耗总token统计,适用于数据特征分析和评估任务管理的场景。

调用方法

请参见如何调用API

授权信息

账号根用户具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备如下身份策略权限,更多的权限说明请参见权限和授权项

授权项

访问级别

资源类型(*为必须)

条件键

别名

依赖的授权项

agentarts:evaluationTask:showOpsEvaluationTasksChartsCompareResult

Read

evaluationTask *

g:ResourceTag/<tag-key>

-

-

URI

GET /v1/ops/evaluation-tasks/{task_id}/statistic-comparisons

表1 路径参数

参数

是否必选

参数类型

描述

task_id

String

参数解释:

基线评估任务的唯一标识符(ID)。

约束限制:

字符长度在0到100之间。

取值范围:

长度为0到100个字符的字符串。

默认取值:

不涉及。

表2 Query参数

参数

是否必选

参数类型

描述

task_ids

String

参数解释:

基线评估任务的唯一标识符列表,多个任务间用逗号相隔。

约束限制:

字符串类型,最大长度1000字符。

取值范围:

字符串长度不超过1000。

默认取值:

不涉及。

请求参数

响应参数

状态码:200

表3 响应Body参数

参数

参数类型

描述

data

data object

包含任务指标统计的核心数据

表4 data

参数

参数类型

描述

task_metrics_stats

Array of CompareTaskMetricsStat objects

各任务的指标统计列表

表5 CompareTaskMetricsStat

参数

参数类型

描述

task_id

String

任务的唯一标识符(UUID格式)。

ave_score

Float

所有评估器得分的平均值(跨评估器、跨样本)。

ave_latency_s

Integer

所有评估的平均延迟(秒)。

ave_input_token

Integer

所有评估的平均输入token数。

ave_output_token

Integer

所有评估的平均输出token数。

ave_total_token

Integer

所有评估的平均总token数(输入+输出)。

max_score

Float

所有评估的最大得分。

max_latency_s

Integer

所有评估的最大延迟(秒)。

max_input_token

Integer

所有评估的最大输入token数。

max_output_token

Integer

所有评估的最大输出token数。

max_total_token

Integer

所有评估的最大总token数。

min_score

Float

所有评估的最小得分。

min_latency_s

Integer

所有评估的最小延迟(秒)。

min_input_token

Integer

所有评估的最小输入token数。

min_output_token

Integer

所有评估的最小输出token数。

min_total_token

Integer

所有评估的最小总token数。

sum_score

Float

所有评估的得分总和。

sum_latency_s

Integer

所有评估的延迟总和(秒)。

sum_input_token

Integer

所有评估的输入token总和。

sum_output_token

Integer

所有评估的输出token总和。

sum_total_token

Integer

所有评估的总token总和。

score_stats

CompareScoreStats object

按评估器维度的统计信息容器。

表6 CompareScoreStats

参数

参数类型

描述

evaluators

Array of CompareEvaluatorStat objects

各个评估器的详细统计列表。

表7 CompareEvaluatorStat

参数

参数类型

描述

evaluator_id

String

评估器的唯一标识符,如 TurnRelevancy、TaskCompletion。

evaluator_name

String

评估器的人类可读名称,如“相关性”、“任务完成度”。

item_num

Integer

参与该评估器的样本数量(即评估次数)。

avg_score

Float

该评估器的平均得分。

max_score

Float

该评估器的最大得分。

min_score

Float

该评估器的最小得分。

sum_score

Float

该评估器的得分总和。

ave_latency_s

Integer

该评估器的平均延迟(秒)。

max_latency_s

Integer

该评估器的最大延迟(秒)。

min_latency_s

Integer

该评估器的最小延迟(秒)。

sum_latency_s

Integer

该评估器的延迟总和(秒)。

ave_input_token

Integer

该评估器的平均输入token数。

max_input_token

Integer

该评估器的最大输入token数。

min_input_token

Integer

该评估器的最小输入token数。

sum_input_token

Integer

该评估器的输入token总和。

ave_output_token

Integer

该评估器的平均输出token数。

max_output_token

Integer

该评估器的最大输出token数。

min_output_token

Integer

该评估器的最小输出token数。

sum_output_token

Integer

该评估器的输出token总和。

ave_total_token

Integer

该评估器的平均总token数(输入+输出)。

max_total_token

Integer

该评估器的最大总token数。

min_total_token

Integer

该评估器的最小总token数。

sum_total_token

Integer

该评估器的总token总和。

状态码:400

表8 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

系统定义的标准化错误代码。

取值范围:

业务异常编码字符串。

error_msg

String

参数解释:

对错误的详细描述,包含异常原因或解决建议。

约束限制:

字符串类型,最小长度为2,最大长度为512。

取值范围:

字符长度2-512,任意文本内容。

请求示例

获取评估任务统计对比结果

GET https://*.com/agentarts/v1/ops/evaluation-tasks/a67452bf21f819-6f91-4568-9f2f-57ef9562ab7b/statistic-comparisons?task_ids=a64cd819-6f91-4568-9f2f-57ef9562ab7b,a64cd819-6f91-4568-9f2f-57ef9562ab7c

响应示例

状态码:200

返回添加成功

{
  "data" : {
    "task_metrics_stats" : [ {
      "ave_input_token" : 0,
      "ave_latency_s" : 0,
      "ave_output_token" : 0,
      "ave_score" : 0.5,
      "ave_total_token" : 0,
      "max_input_token" : 0,
      "max_latency_s" : 0,
      "max_output_token" : 0,
      "max_total_token" : 0,
      "min_input_token" : 0,
      "min_latency_s" : 0,
      "min_output_token" : 0,
      "min_total_token" : 0,
      "score_stats" : {
        "evaluators" : [ {
          "ave_input_token" : 0,
          "ave_latency_s" : 0,
          "ave_output_token" : 0,
          "ave_total_token" : 0,
          "avg_score" : 0,
          "evaluator_id" : "TurnRelevancy",
          "evaluator_name" : "相关性",
          "item_num" : 2,
          "max_input_token" : 0,
          "max_latency_s" : 0,
          "max_output_token" : 0,
          "max_score" : 0,
          "max_total_token" : 0,
          "min_input_token" : 0,
          "min_latency_s" : 0,
          "min_output_token" : 0,
          "min_score" : 0,
          "min_total_token" : 0,
          "sum_input_token" : 0,
          "sum_latency_s" : 0,
          "sum_output_token" : 0,
          "sum_score" : 0,
          "sum_total_token" : 0
        }, {
          "ave_input_token" : 0,
          "ave_latency_s" : 0,
          "ave_output_token" : 0,
          "ave_total_token" : 0,
          "avg_score" : 1,
          "evaluator_id" : "TaskCompletion",
          "evaluator_name" : "任务完成度",
          "item_num" : 2,
          "max_input_token" : 0,
          "max_latency_s" : 0,
          "max_output_token" : 0,
          "max_score" : 2,
          "max_total_token" : 0,
          "min_input_token" : 0,
          "min_latency_s" : 0,
          "min_output_token" : 0,
          "min_score" : 0,
          "min_total_token" : 0,
          "sum_input_token" : 0,
          "sum_latency_s" : 0,
          "sum_output_token" : 0,
          "sum_score" : 2,
          "sum_total_token" : 0
        } ]
      },
      "sum_input_token" : 0,
      "sum_latency_s" : 0,
      "sum_output_token" : 0,
      "sum_total_token" : 0,
      "task_id" : "bf05bc1b-c052-48e7-b267-792667b0bc4f"
    } ]
  }
}

状态码

状态码

描述

200

返回添加成功

400

错误

错误码

请参见错误码

相关文档