文档首页/ 智能体开发平台 AgentArts/ API参考/ API/ 评估/ 评估任务管理/ 发起评估任务对比结果 - ShowEvaluationTasksCompareResult
更新时间:2026-05-08 GMT+08:00
分享

发起评估任务对比结果 - ShowEvaluationTasksCompareResult

功能介绍

该接口用于统计不同评估任务的对比结果,包含每个任务在每个评估器的得分情况、每个评估器得分、任务状态、任务耗时、任务消耗总token,适用于数据特征分析和评估任务管理的场景。

调用方法

请参见如何调用API

授权信息

当前API调用无需身份策略权限。

URI

POST /v1/ops/evaluation-tasks/compare-result

请求参数

表1 请求Header参数

参数

是否必选

参数类型

描述

Content-Type

String

参数解释:

消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

application/json

Authorization

String

参数解释:

签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

X-Sdk-Date

String

参数解释:

请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。

约束限制:

不涉及

取值范围:

不涉及

默认取值:

不涉及

表2 请求Body参数

参数

是否必选

参数类型

描述

task_ids

Array of strings

参数解释:

评估任务的唯一标识符(ID)列表。第一个task_id为基线组任务id

约束限制:

列表长度0-100,字符串长度在0到100之间。

取值范围:

列表长度0-100,字符串长度为0到100个字符。

默认取值:

不涉及。

响应参数

状态码:200

返回添加成功

状态码:400

表3 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

系统定义的标准化错误代码。

取值范围:

业务异常编码字符串。

error_msg

String

参数解释:

对错误的详细描述,包含异常原因或解决建议。

取值范围:

任意文本内容。

请求示例

发起评估任务对比结果

POST https://*.com/agentarts/v1/ops/evaluation-tasks/compare-result

{
  "task_ids" : [ "a64cd819-6f91-4568-9f2f-57ef9562ab7b", "a64cd819-6f91-4568-9f2f-57ef9562ab7c" ]
}

响应示例

状态码:200

返回添加成功

{
  "data" : [ {
    "result" : [ {
      "item_id" : "69cb54fa4ff1d28db99b80f9",
      "item_data" : [ {
        "user_input" : "測試輸入2-1",
        "user_output" : "測試輸出2-1"
      }, {
        "user_input" : "測試輸入2-2",
        "user_output" : "測試輸出2-2"
      } ],
      "item_data_list" : null,
      "dataset_id" : "c5784498-75a4-4a39-9a88-d34c96c5ac23",
      "dataset_version" : "410eef1f-292c-41e9-9d92-cfd54c202954",
      "evaluations" : [ {
        "evaluator_id" : "TaskCompletion",
        "evaluator_version" : "1.0.0",
        "score" : 0,
        "reason" : "",
        "latency_s" : 8,
        "status_code" : "FAILED",
        "error" : "评估失败。【[ERR_INVALID_TYPE(1002)] Metric 'TaskCompletionMetric' is not a valid metric for a multi-turn TestCase. (Hint: Use a metric that inherits from BaseSessionMetric for TestCases with multiple turns.)】",
        "input_token_usage" : 20,
        "output_token_usage" : 3,
        "correction" : null,
        "retry_count" : 4,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "任务完成度"
      }, {
        "evaluator_id" : "TurnRelevancy",
        "evaluator_version" : "1.0.0",
        "score" : 1,
        "reason" : "得分为 1.0,因为不相关性描述列表为空,表明AI回复的消息'actual_output'与用户的消息'input'之间没有任何不相关之处,完全符合对话上下文和用户需求。",
        "latency_s" : 6,
        "status_code" : "SUCCESS",
        "error" : "",
        "input_token_usage" : 1864,
        "output_token_usage" : 92,
        "correction" : null,
        "retry_count" : 1,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "相关性"
      } ]
    }, {
      "item_id" : "69cb54fa4ff1d28db99b80f8",
      "item_data" : [ {
        "user_input" : "測試輸入1-1",
        "user_output" : "測試輸出1-2"
      }, {
        "user_input" : "測試輸入1-2",
        "user_output" : "測試輸出1-2"
      } ],
      "item_data_list" : null,
      "dataset_id" : "c5784498-75a4-4a39-9a88-d34c96c5ac23",
      "dataset_version" : "410eef1f-292c-41e9-9d92-cfd54c202954",
      "evaluations" : [ {
        "evaluator_id" : "TaskCompletion",
        "evaluator_version" : "1.0.0",
        "score" : 0,
        "reason" : "",
        "latency_s" : 1,
        "status_code" : "FAILED",
        "error" : "评估失败。【[ERR_INVALID_TYPE(1002)] Metric 'TaskCompletionMetric' is not a valid metric for a multi-turn TestCase. (Hint: Use a metric that inherits from BaseSessionMetric for TestCases with multiple turns.)】",
        "input_token_usage" : 2,
        "output_token_usage" : 1,
        "correction" : null,
        "retry_count" : 4,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "任务完成度"
      }, {
        "evaluator_id" : "TurnRelevancy",
        "evaluator_version" : "1.0.0",
        "score" : 1,
        "reason" : "得分为 1.0,因为不相关性描述列表为空,表明AI回复的消息与用户的消息完全相关,没有任何不相关之处。",
        "latency_s" : 5,
        "status_code" : "SUCCESS",
        "error" : "",
        "input_token_usage" : 1864,
        "output_token_usage" : 79,
        "correction" : null,
        "retry_count" : 1,
        "created_at" : "2026-03-31T06:54:09.974Z",
        "evaluator_name" : "相关性"
      } ]
    } ],
    "task_id" : "a9bc0aa7-f93c-464d-945b-b7dd3b52945a"
  } ]
}

状态码

状态码

描述

200

返回添加成功

400

错误

错误码

请参见错误码

相关文档