获取评估任务统计结果 - ShowOpsEvaluationTasksChartsCompareResult
功能介绍
该接口用于统计不同评估任务的对比结果报告,包含评估器得分情况、得分概览、任务消耗总token统计,适用于数据特征分析和评估任务管理的场景。
调用方法
请参见如何调用API。
授权信息
账号根用户具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备如下身份策略权限,更多的权限说明请参见权限和授权项。
| 授权项 | 访问级别 | 资源类型(*为必须) | 条件键 | 别名 | 依赖的授权项 |
|---|---|---|---|---|---|
| agentarts:evaluationTask:showOpsEvaluationTasksChartsCompareResult | Read | evaluationTask * | g:ResourceTag/<tag-key> | - | - |
URI
GET /v1/ops/evaluation-tasks/{task_id}/statistic-comparisons
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| task_id | 是 | String | 参数解释: 基线评估任务的唯一标识符(ID)。 约束限制: 字符长度在0到100之间。 取值范围: 长度为0到100个字符的字符串。 默认取值: 不涉及。 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| task_ids | 是 | String | 参数解释: 基线评估任务的唯一标识符列表,多个任务间用逗号相隔。 约束限制: 字符串类型,最大长度1000字符。 取值范围: 字符串长度不超过1000。 默认取值: 不涉及。 |
请求参数
无
响应参数
状态码:200
| 参数 | 参数类型 | 描述 |
|---|---|---|
| data | data object | 包含任务指标统计的核心数据 |
| 参数 | 参数类型 | 描述 |
|---|---|---|
| task_id | String | 任务的唯一标识符(UUID格式)。 |
| ave_score | Float | 所有评估器得分的平均值(跨评估器、跨样本)。 |
| ave_latency_s | Integer | 所有评估的平均延迟(秒)。 |
| ave_input_token | Integer | 所有评估的平均输入token数。 |
| ave_output_token | Integer | 所有评估的平均输出token数。 |
| ave_total_token | Integer | 所有评估的平均总token数(输入+输出)。 |
| max_score | Float | 所有评估的最大得分。 |
| max_latency_s | Integer | 所有评估的最大延迟(秒)。 |
| max_input_token | Integer | 所有评估的最大输入token数。 |
| max_output_token | Integer | 所有评估的最大输出token数。 |
| max_total_token | Integer | 所有评估的最大总token数。 |
| min_score | Float | 所有评估的最小得分。 |
| min_latency_s | Integer | 所有评估的最小延迟(秒)。 |
| min_input_token | Integer | 所有评估的最小输入token数。 |
| min_output_token | Integer | 所有评估的最小输出token数。 |
| min_total_token | Integer | 所有评估的最小总token数。 |
| sum_score | Float | 所有评估的得分总和。 |
| sum_latency_s | Integer | 所有评估的延迟总和(秒)。 |
| sum_input_token | Integer | 所有评估的输入token总和。 |
| sum_output_token | Integer | 所有评估的输出token总和。 |
| sum_total_token | Integer | 所有评估的总token总和。 |
| score_stats | CompareScoreStats object | 按评估器维度的统计信息容器。 |
| 参数 | 参数类型 | 描述 |
|---|---|---|
| evaluator_id | String | 评估器的唯一标识符,如 TurnRelevancy、TaskCompletion。 |
| evaluator_name | String | 评估器的人类可读名称,如“相关性”、“任务完成度”。 |
| item_num | Integer | 参与该评估器的样本数量(即评估次数)。 |
| avg_score | Float | 该评估器的平均得分。 |
| max_score | Float | 该评估器的最大得分。 |
| min_score | Float | 该评估器的最小得分。 |
| sum_score | Float | 该评估器的得分总和。 |
| ave_latency_s | Integer | 该评估器的平均延迟(秒)。 |
| max_latency_s | Integer | 该评估器的最大延迟(秒)。 |
| min_latency_s | Integer | 该评估器的最小延迟(秒)。 |
| sum_latency_s | Integer | 该评估器的延迟总和(秒)。 |
| ave_input_token | Integer | 该评估器的平均输入token数。 |
| max_input_token | Integer | 该评估器的最大输入token数。 |
| min_input_token | Integer | 该评估器的最小输入token数。 |
| sum_input_token | Integer | 该评估器的输入token总和。 |
| ave_output_token | Integer | 该评估器的平均输出token数。 |
| max_output_token | Integer | 该评估器的最大输出token数。 |
| min_output_token | Integer | 该评估器的最小输出token数。 |
| sum_output_token | Integer | 该评估器的输出token总和。 |
| ave_total_token | Integer | 该评估器的平均总token数(输入+输出)。 |
| max_total_token | Integer | 该评估器的最大总token数。 |
| min_total_token | Integer | 该评估器的最小总token数。 |
| sum_total_token | Integer | 该评估器的总token总和。 |
状态码:400
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 系统定义的标准化错误代码。 取值范围: 业务异常编码字符串。 |
| error_msg | String | 参数解释: 对错误的详细描述,包含异常原因或解决建议。 约束限制: 字符串类型,最小长度为2,最大长度为512。 取值范围: 字符长度2-512,任意文本内容。 |
请求示例
获取评估任务统计对比结果
GET https://*.com/agentarts/v1/ops/evaluation-tasks/a67452bf21f819-6f91-4568-9f2f-57ef9562ab7b/statistic-comparisons?task_ids=a64cd819-6f91-4568-9f2f-57ef9562ab7b,a64cd819-6f91-4568-9f2f-57ef9562ab7c
响应示例
状态码:200
返回添加成功
{
"data" : {
"task_metrics_stats" : [ {
"ave_input_token" : 0,
"ave_latency_s" : 0,
"ave_output_token" : 0,
"ave_score" : 0.5,
"ave_total_token" : 0,
"max_input_token" : 0,
"max_latency_s" : 0,
"max_output_token" : 0,
"max_total_token" : 0,
"min_input_token" : 0,
"min_latency_s" : 0,
"min_output_token" : 0,
"min_total_token" : 0,
"score_stats" : {
"evaluators" : [ {
"ave_input_token" : 0,
"ave_latency_s" : 0,
"ave_output_token" : 0,
"ave_total_token" : 0,
"avg_score" : 0,
"evaluator_id" : "TurnRelevancy",
"evaluator_name" : "相关性",
"item_num" : 2,
"max_input_token" : 0,
"max_latency_s" : 0,
"max_output_token" : 0,
"max_score" : 0,
"max_total_token" : 0,
"min_input_token" : 0,
"min_latency_s" : 0,
"min_output_token" : 0,
"min_score" : 0,
"min_total_token" : 0,
"sum_input_token" : 0,
"sum_latency_s" : 0,
"sum_output_token" : 0,
"sum_score" : 0,
"sum_total_token" : 0
}, {
"ave_input_token" : 0,
"ave_latency_s" : 0,
"ave_output_token" : 0,
"ave_total_token" : 0,
"avg_score" : 1,
"evaluator_id" : "TaskCompletion",
"evaluator_name" : "任务完成度",
"item_num" : 2,
"max_input_token" : 0,
"max_latency_s" : 0,
"max_output_token" : 0,
"max_score" : 2,
"max_total_token" : 0,
"min_input_token" : 0,
"min_latency_s" : 0,
"min_output_token" : 0,
"min_score" : 0,
"min_total_token" : 0,
"sum_input_token" : 0,
"sum_latency_s" : 0,
"sum_output_token" : 0,
"sum_score" : 2,
"sum_total_token" : 0
} ]
},
"sum_input_token" : 0,
"sum_latency_s" : 0,
"sum_output_token" : 0,
"sum_total_token" : 0,
"task_id" : "bf05bc1b-c052-48e7-b267-792667b0bc4f"
} ]
}
} 状态码
| 状态码 | 描述 |
|---|---|
| 200 | 返回添加成功 |
| 400 | 错误 |
错误码
请参见错误码。