查看任务评估结果 - ListOpsEvaluationTaskResults
功能介绍
该接口用于获取评估任务的详细评估结果,包括各项评估指标的分数、用时和详细信息,适用于任务结果分析和质量评估的场景。
URI
POST /v1/ops/evaluation-tasks/{task_id}/results
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
task_id |
是 |
String |
参数解释: 需要查询结果的评估任务唯一标识符(ID)。 约束限制: 字符串长度为0到100。 取值范围: 不涉及。 默认取值: 不涉及。 |
请求参数
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
Content-Type |
是 |
String |
参数解释: 消息体编码格式。用于告知服务端请求体(Body)所采用的主体数据类型,以便服务端正确解析。 约束限制: 不涉及 取值范围: 不涉及 默认取值: application/json |
|
Authorization |
是 |
String |
参数解释: 签名认证信息,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
X-Sdk-Date |
是 |
String |
参数解释: 请求发送的时间,当使用AK/SK方式认证时,使用SDK对请求进行签名的过程中会自动填充该字段。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 |
|
参数 |
是否必选 |
参数类型 |
描述 |
|---|---|---|---|
|
offset |
是 |
Integer |
参数解释: 指定分页查询的起始偏移量。 约束限制: 1到10000之间的整数。 取值范围: 1到 10000。 默认取值: 1。 |
|
limit |
是 |
Integer |
参数解释: 指定单页返回的结果数量。 约束限制: 1到100之间的整数。 取值范围: 1到100。 默认取值: 10。 |
|
filters |
否 |
Object |
参数解释: 任务过滤条件对象,支持模糊查询,用于精准筛选评估结果。 约束限制: 符合业务逻辑的JSON对象。 取值范围: 不涉及。 默认取值: 空对象。 |
响应参数
状态码:200
当前任务的评估详情
无
请求示例
获取指定评估任务的详细结果,包含每条测试数据的评分、原因及处理耗时。
POST https://*.com/agentarts/v1/ops/evaluation-tasks/task_7590068991923321000/results
{
"offset" : 1,
"limit" : 10,
"filters" : {
"min_score" : 0,
"max_score" : 10
}
}
响应示例
状态码:200
当前任务的评估详情
{
"data" : {
"items" : [ {
"item_id" : "item-f80ce759-490a-4472-b779-80dc5e564f5b",
"dataset_name" : "dataset_name",
"evaluations" : [ {
"score" : 0.8,
"reason" : "回答完全正确",
"latency_s" : 20
} ]
} ],
"total" : 1
}
}
状态码
|
状态码 |
描述 |
|---|---|
|
200 |
当前任务的评估详情 |
错误码
请参见错误码。