获取评估任务对比报告 - ShowEvaluationTasksChartsCompareResult
功能介绍
该接口用于统计不同评估任务的对比结果报告,包含评估器得分情况、得分概览、任务消耗总token统计,适用于数据特征分析和评估任务管理的场景。
调用方法
请参见如何调用API。
授权信息
当前API调用无需身份策略权限。
URI
POST /v1/ops/evaluation-tasks/charts/compare-result
请求参数
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| Content-Type | 是 | String | 参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: 不涉及 默认取值: application/json |
| Authorization | 是 | String | 参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| X-Sdk-Date | 是 | String | 参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| task_ids | 是 | Array of strings | 参数解释: 评估任务的唯一标识符(ID)列表。第一个task_id为基线组任务id 约束限制: 列表长度0-100,字符串长度在0到100之间。 取值范围: 列表长度0-100,字符串长度为0到100个字符。 默认取值: 不涉及。 |
响应参数
状态码:200
返回添加成功
状态码:400
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 系统定义的标准化错误代码。 取值范围: 业务异常编码字符串。 |
| error_msg | String | 参数解释: 对错误的详细描述,包含异常原因或解决建议。 取值范围: 任意文本内容。 |
请求示例
获取评估任务对比报告
POST https://*.com/agentarts/v1/ops/evaluation-tasks/charts/compare-result
{
"task_ids" : [ "a64cd819-6f91-4568-9f2f-57ef9562ab7b", "a64cd819-6f91-4568-9f2f-57ef9562ab7c" ]
} 响应示例
状态码:200
返回添加成功
{
"data" : {
"evaluators_score_stats" : [ {
"ave_input_token" : 937.5,
"ave_latency_s" : 5,
"ave_output_token" : 43.75,
"ave_total_token" : 981.25,
"max_input_token" : 1864,
"max_latency_s" : 8,
"max_output_token" : 92,
"max_total_token" : 1956,
"min_input_token" : 2,
"min_latency_s" : 1,
"min_output_token" : 1,
"min_total_token" : 3,
"score_stats" : {
"evaluators" : [ {
"ave_input_token" : 1864,
"ave_latency_s" : 5.5,
"ave_output_token" : 85.5,
"ave_total_token" : 1949.5,
"avg_score" : 1,
"evaluator_id" : "TurnRelevancy",
"evaluator_name" : "相关性",
"itemNum" : 2,
"max_input_token" : 1864,
"max_latency_s" : 6,
"max_output_token" : 92,
"max_score" : 1,
"max_total_token" : 1956,
"min_input_token" : 1864,
"min_latency_s" : 5,
"min_output_token" : 79,
"min_score" : 1,
"min_total_token" : 1943,
"sum_input_token" : 3728,
"sum_latency_s" : 11,
"sum_output_token" : 171,
"sum_score" : 2,
"sum_total_token" : 3899
}, {
"ave_input_token" : 11,
"ave_latency_s" : 4.5,
"ave_output_token" : 2,
"ave_total_token" : 13,
"avg_score" : 0,
"evaluator_id" : "TaskCompletion",
"evaluator_name" : "任务完成度",
"itemNum" : 2,
"max_input_token" : 20,
"max_latency_s" : 8,
"max_output_token" : 3,
"max_score" : 0,
"max_total_token" : 23,
"min_input_token" : 2,
"min_latency_s" : 1,
"min_output_token" : 1,
"min_score" : 0,
"min_total_token" : 3,
"sum_input_token" : 22,
"sum_latency_s" : 9,
"sum_output_token" : 4,
"sum_score" : 0,
"sum_total_token" : 26
} ]
},
"sum_input_token" : 3750,
"sum_latency_s" : 20,
"sum_output_token" : 175,
"sum_total_token" : 3925,
"task_id" : "a9bc0aa7-f93c-464d-945b-b7dd3b52945a"
} ]
}
} 状态码
| 状态码 | 描述 |
|---|---|
| 200 | 返回添加成功 |
| 400 | 错误 |
错误码
请参见错误码。