发起评估任务对比结果 - ShowEvaluationTasksCompareResult
功能介绍
该接口用于统计不同评估任务的对比结果,包含每个任务在每个评估器的得分情况、每个评估器得分、任务状态、任务耗时、任务消耗总token,适用于数据特征分析和评估任务管理的场景。
调用方法
请参见如何调用API。
授权信息
当前API调用无需身份策略权限。
URI
POST /v1/ops/evaluation-tasks/compare-result
请求参数
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| Content-Type | 是 | String | 参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: 不涉及 默认取值: application/json |
| Authorization | 是 | String | 参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| X-Sdk-Date | 是 | String | 参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| task_ids | 是 | Array of strings | 参数解释: 评估任务的唯一标识符(ID)列表。第一个task_id为基线组任务id 约束限制: 列表长度0-100,字符串长度在0到100之间。 取值范围: 列表长度0-100,字符串长度为0到100个字符。 默认取值: 不涉及。 |
响应参数
状态码:200
返回添加成功
状态码:400
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 系统定义的标准化错误代码。 取值范围: 业务异常编码字符串。 |
| error_msg | String | 参数解释: 对错误的详细描述,包含异常原因或解决建议。 取值范围: 任意文本内容。 |
请求示例
发起评估任务对比结果
POST https://*.com/agentarts/v1/ops/evaluation-tasks/compare-result
{
"task_ids" : [ "a64cd819-6f91-4568-9f2f-57ef9562ab7b", "a64cd819-6f91-4568-9f2f-57ef9562ab7c" ]
} 响应示例
状态码:200
返回添加成功
{
"data" : [ {
"result" : [ {
"item_id" : "69cb54fa4ff1d28db99b80f9",
"item_data" : [ {
"user_input" : "測試輸入2-1",
"user_output" : "測試輸出2-1"
}, {
"user_input" : "測試輸入2-2",
"user_output" : "測試輸出2-2"
} ],
"item_data_list" : null,
"dataset_id" : "c5784498-75a4-4a39-9a88-d34c96c5ac23",
"dataset_version" : "410eef1f-292c-41e9-9d92-cfd54c202954",
"evaluations" : [ {
"evaluator_id" : "TaskCompletion",
"evaluator_version" : "1.0.0",
"score" : 0,
"reason" : "",
"latency_s" : 8,
"status_code" : "FAILED",
"error" : "评估失败。【[ERR_INVALID_TYPE(1002)] Metric 'TaskCompletionMetric' is not a valid metric for a multi-turn TestCase. (Hint: Use a metric that inherits from BaseSessionMetric for TestCases with multiple turns.)】",
"input_token_usage" : 20,
"output_token_usage" : 3,
"correction" : null,
"retry_count" : 4,
"created_at" : "2026-03-31T06:54:09.974Z",
"evaluator_name" : "任务完成度"
}, {
"evaluator_id" : "TurnRelevancy",
"evaluator_version" : "1.0.0",
"score" : 1,
"reason" : "得分为 1.0,因为不相关性描述列表为空,表明AI回复的消息'actual_output'与用户的消息'input'之间没有任何不相关之处,完全符合对话上下文和用户需求。",
"latency_s" : 6,
"status_code" : "SUCCESS",
"error" : "",
"input_token_usage" : 1864,
"output_token_usage" : 92,
"correction" : null,
"retry_count" : 1,
"created_at" : "2026-03-31T06:54:09.974Z",
"evaluator_name" : "相关性"
} ]
}, {
"item_id" : "69cb54fa4ff1d28db99b80f8",
"item_data" : [ {
"user_input" : "測試輸入1-1",
"user_output" : "測試輸出1-2"
}, {
"user_input" : "測試輸入1-2",
"user_output" : "測試輸出1-2"
} ],
"item_data_list" : null,
"dataset_id" : "c5784498-75a4-4a39-9a88-d34c96c5ac23",
"dataset_version" : "410eef1f-292c-41e9-9d92-cfd54c202954",
"evaluations" : [ {
"evaluator_id" : "TaskCompletion",
"evaluator_version" : "1.0.0",
"score" : 0,
"reason" : "",
"latency_s" : 1,
"status_code" : "FAILED",
"error" : "评估失败。【[ERR_INVALID_TYPE(1002)] Metric 'TaskCompletionMetric' is not a valid metric for a multi-turn TestCase. (Hint: Use a metric that inherits from BaseSessionMetric for TestCases with multiple turns.)】",
"input_token_usage" : 2,
"output_token_usage" : 1,
"correction" : null,
"retry_count" : 4,
"created_at" : "2026-03-31T06:54:09.974Z",
"evaluator_name" : "任务完成度"
}, {
"evaluator_id" : "TurnRelevancy",
"evaluator_version" : "1.0.0",
"score" : 1,
"reason" : "得分为 1.0,因为不相关性描述列表为空,表明AI回复的消息与用户的消息完全相关,没有任何不相关之处。",
"latency_s" : 5,
"status_code" : "SUCCESS",
"error" : "",
"input_token_usage" : 1864,
"output_token_usage" : 79,
"correction" : null,
"retry_count" : 1,
"created_at" : "2026-03-31T06:54:09.974Z",
"evaluator_name" : "相关性"
} ]
} ],
"task_id" : "a9bc0aa7-f93c-464d-945b-b7dd3b52945a"
} ]
} 状态码
| 状态码 | 描述 |
|---|---|
| 200 | 返回添加成功 |
| 400 | 错误 |
错误码
请参见错误码。