发起评估任务对比结果 - ShowEvaluationTasksCompareResult

功能介绍

该接口用于统计不同评估任务的对比结果，包含每个任务在每个评估器的得分情况、每个评估器得分、任务状态、任务耗时、任务消耗总token，适用于数据特征分析和评估任务管理的场景。

调用方法

请参见如何调用API。

授权信息

当前API调用无需身份策略权限。

URI

POST /v1/ops/evaluation-tasks/compare-result

请求参数

表1 请求Header参数
参数	是否必选	参数类型	描述
Content-Type	是	String	参数解释：消息体编码格式。用于告知服务端请求体（Body）所采用的主体数据类型，以便服务端正确解析。约束限制：不涉及取值范围：不涉及默认取值： application/json
Authorization	是	String	参数解释：签名认证信息，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及
X-Sdk-Date	是	String	参数解释：请求发送的时间，当使用AK/SK方式认证时，使用SDK对请求进行签名的过程中会自动填充该字段。约束限制：不涉及取值范围：不涉及默认取值：不涉及

表2 请求Body参数
参数	是否必选	参数类型	描述
task_ids	是	Array of strings	参数解释：评估任务的唯一标识符（ID）列表。第一个task_id为基线组任务id 约束限制：列表长度0-100，字符串长度在0到100之间。取值范围：列表长度0-100，字符串长度为0到100个字符。默认取值：不涉及。

响应参数

状态码：200

返回添加成功

状态码：400

表3 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：系统定义的标准化错误代码。取值范围：业务异常编码字符串。
error_msg	String	参数解释：对错误的详细描述，包含异常原因或解决建议。取值范围：任意文本内容。

请求示例

发起评估任务对比结果

POST https://*.com/agentarts/v1/ops/evaluation-tasks/compare-result

{
  "task_ids" : [ "a64cd819-6f91-4568-9f2f-57ef9562ab7b", "a64cd819-6f91-4568-9f2f-57ef9562ab7c" ]
}

响应示例

状态码：200

返回添加成功

{
  "data" : [ {
    "result" : [ {
      "item_id" : "69cb54fa4ff1d28db99b80f9",
      "item_data" : [ {
        "user_input" : "測試輸入2-1",
        "user_output" : "測試輸出2-1"
      }, {
        "user_input" : "測試輸入2-2",
        "user_output" : "測試輸出2-2"
      } ],
      "item_data_list" : null,
      "dataset_id" : "c5784498-75a4-4a39-9a88-d34c96c5ac23",
      "dataset_version" : "410eef1f-292c-41e9-9d92-cfd54c202954",
      "evaluations" : [ {
        "evaluator_id" : "TaskCompletion",
        "evaluator_version" : "1.0.0",
        "score" : 0,
        "reason" : "",
        "latency_s" : 8,
        "status_code" : "FAILED",
        "error" : "评估失败。【[ERR_INVALID_TYPE(1002)] Metric 'TaskCompletionMetric' is not a valid metric for a multi-turn TestCase. (Hint: Use a metric that inherits from BaseSessionMetric for TestCases with multiple turns.)】",
        "input_token_usage" : 20,
        "output_token_usage" : 3,
        "correction" : null,
        "retry_count" : 4,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "任务完成度"
      }, {
        "evaluator_id" : "TurnRelevancy",
        "evaluator_version" : "1.0.0",
        "score" : 1,
        "reason" : "得分为 1.0，因为不相关性描述列表为空，表明AI回复的消息'actual_output'与用户的消息'input'之间没有任何不相关之处，完全符合对话上下文和用户需求。",
        "latency_s" : 6,
        "status_code" : "SUCCESS",
        "error" : "",
        "input_token_usage" : 1864,
        "output_token_usage" : 92,
        "correction" : null,
        "retry_count" : 1,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "相关性"
      } ]
    }, {
      "item_id" : "69cb54fa4ff1d28db99b80f8",
      "item_data" : [ {
        "user_input" : "測試輸入1-1",
        "user_output" : "測試輸出1-2"
      }, {
        "user_input" : "測試輸入1-2",
        "user_output" : "測試輸出1-2"
      } ],
      "item_data_list" : null,
      "dataset_id" : "c5784498-75a4-4a39-9a88-d34c96c5ac23",
      "dataset_version" : "410eef1f-292c-41e9-9d92-cfd54c202954",
      "evaluations" : [ {
        "evaluator_id" : "TaskCompletion",
        "evaluator_version" : "1.0.0",
        "score" : 0,
        "reason" : "",
        "latency_s" : 1,
        "status_code" : "FAILED",
        "error" : "评估失败。【[ERR_INVALID_TYPE(1002)] Metric 'TaskCompletionMetric' is not a valid metric for a multi-turn TestCase. (Hint: Use a metric that inherits from BaseSessionMetric for TestCases with multiple turns.)】",
        "input_token_usage" : 2,
        "output_token_usage" : 1,
        "correction" : null,
        "retry_count" : 4,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "任务完成度"
      }, {
        "evaluator_id" : "TurnRelevancy",
        "evaluator_version" : "1.0.0",
        "score" : 1,
        "reason" : "得分为 1.0，因为不相关性描述列表为空，表明AI回复的消息与用户的消息完全相关，没有任何不相关之处。",
        "latency_s" : 5,
        "status_code" : "SUCCESS",
        "error" : "",
        "input_token_usage" : 1864,
        "output_token_usage" : 79,
        "correction" : null,
        "retry_count" : 1,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "相关性"
      } ]
    } ],
    "task_id" : "a9bc0aa7-f93c-464d-945b-b7dd3b52945a"
  } ]
}