轨迹质量
轨迹质量评估器
分类 | 详情 | |
|---|---|---|
基础信息 | 评估器名称 | 轨迹质量 |
效果说明 | 功能概述 | 分析Agent的内部轨迹,评估其逻辑连贯性、清晰的进展过程和目标达成情况。 |
评估方式 | LLM评估 | |
评估目标 | 文本、轨迹质量 | |
应用场景 | 适用于需要审计Agent决策过程的场景,如复杂问题求解、多步推理任务、工具链调用追踪等。 | |
评分标准 | 1.0分 | 轨迹逻辑严密,步骤清晰有序,每一步都有效推进目标,最终成功达成任务。 |
0.75分 | 轨迹整体合理,个别步骤存在轻微冗余或顺序可优化,但不影响最终目标达成。 | |
0.5 | 轨迹存在明显问题,如有冗余步骤、逻辑跳跃或局部偏离,但最终仍能完成目标。 | |
0.25 | 轨迹混乱,步骤大量冗余或严重偏离目标,虽经修正后勉强完成,但效率极低。 | |
0.0分 | 轨迹完全偏离目标,逻辑断裂,无法形成有效进展,任务最终失败。 | |
评估器参数说明:
参数类型 | 参数名称 | 是否必填 | 参数说明 |
|---|---|---|---|
输入参数 | trajectory | 是 | Agent的内部轨迹数据。 |
输出参数 | score | 是 | 评估得分(0.0 / 0.25/ 0.5 / 0.75 / 1.0)。 |
reason | 是 | 评分理由说明。 |
输入格式示例:
{
"trajectory": {
"data": [
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spans": [
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spanID": "638cd190463ab722",
"operationName": "开始.workflow",
"startTime": 1768981956508301,
"duration": 2000,
"tags": {
"traceloop.entity.input": {
"query": "请帮我查一下北京明天的天气。",
"sys": {
"conversationHistory": [
{
"role": "user",
"content": "请帮我查一下北京明天的天气。"
}
],
"conversationId": "0edb3072-8508-48df-9687-00001",
"userId": "wfq",
"currentTime": "2026-01-21 15:52:36"
}
},
"conversationId": "0edb3072-8508-48df-9687-00001",
"userId": "wfq",
"ext": "hello",
"conversationHistory": {},
"traceloop.entity.name": "开始",
"traceloop.entity.output": {
"systemFields": {
"query": "请帮我查一下北京明天的天气。",
"sys": {
"conversationHistory": [
{
"role": "user",
"content": "请帮我查一下北京明天的天气。"
}
],
"currentTime": "2026-01-21 15:52:36",
"userId": "wfq",
"conversationId": "0edb3072-8508-48df-9687-00001"
}
},
"userFields": {},
"memory": {},
"permanent_vars": {},
"session_vars": {}
},
"traceloop.entity.path": "开始.workflow",
"traceloop.span.kind": "workflow"
}
},
{
"traceloop.entity.path": "开始.workflow",
"traceloop.span.kind": "workflow"
},
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spanID": "22a21ae0e25027a8",
"operationName": "model.chat",
"startTime": 1768981956511301,
"duration": 1189343,
"tags": {
"traceloop.entity.path": "UserInput.workflow.model.chat"
}
},
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spanID": "5b7d862dd66737c5",
"operationName": "结束.workflow",
"startTime": 1768981956514301,
"duration": 1189333,
"tags": {
"traceloop.entity.input": {
"userFields": {
"result": ""
},
"systemFields": {}
},
"traceloop.entity.name": "结束",
"traceloop.entity.output": {
"responseContent": "已查询北京明天天气,预计为晴天,气温在10°C到20°C之间。",
"userFields": {},
"output_mode": "null",
"systemFields": {}
},
"traceloop.entity.path": "UserInput.workflow.结束.workflow",
"traceloop.span.kind": "workflow"
}
}
]
}
]
}
} 输出格式示例:
{
"score": 1.0,
"reason": "用户请求查询北京明天天气,Agent 轨迹从意图推断到最终回复,逻辑清晰,无冗余步骤,且结果准确,完全达成目标,因此判定为完美实现,得分为1.0。"
} 
