轨迹质量
轨迹质量评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
轨迹质量 |
|
效果说明 |
功能概述 |
分析Agent的内部轨迹,评估其逻辑连贯性、清晰的进展过程和目标达成情况。 |
|
评估方式 |
LLM评估 |
|
|
评估目标 |
文本、轨迹质量 |
|
|
应用场景 |
适用于需要审计Agent决策过程的场景,如复杂问题求解、多步推理任务、工具链调用追踪等。 |
|
|
评分标准 |
1.0分 |
轨迹逻辑严密,步骤清晰有序,每一步都有效推进目标,最终成功达成任务。 |
|
0.75分 |
轨迹整体合理,个别步骤存在轻微冗余或顺序可优化,但不影响最终目标达成。 |
|
|
0.5 |
轨迹存在明显问题,如有冗余步骤、逻辑跳跃或局部偏离,但最终仍能完成目标。 |
|
|
0.25 |
轨迹混乱,步骤大量冗余或严重偏离目标,虽经修正后勉强完成,但效率极低。 |
|
|
0.0分 |
轨迹完全偏离目标,逻辑断裂,无法形成有效进展,任务最终失败。 |
|
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入参数 |
trajectory |
是 |
Agent的内部轨迹数据。 |
|
输出参数 |
score |
是 |
评估得分(0.0 / 0.25/ 0.5 / 0.75 / 1.0)。 |
|
reason |
是 |
评分理由说明。 |
输入格式示例:
{
"trajectory": {
"data": [
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spans": [
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spanID": "638cd190463ab722",
"operationName": "开始.workflow",
"startTime": 1768981956508301,
"duration": 2000,
"tags": {
"traceloop.entity.input": {
"query": "请帮我查一下北京明天的天气。",
"sys": {
"conversationHistory": [
{
"role": "user",
"content": "请帮我查一下北京明天的天气。"
}
],
"conversationId": "0edb3072-8508-48df-9687-00001",
"userId": "wfq",
"currentTime": "2026-01-21 15:52:36"
}
},
"conversationId": "0edb3072-8508-48df-9687-00001",
"userId": "wfq",
"ext": "hello",
"conversationHistory": {},
"traceloop.entity.name": "开始",
"traceloop.entity.output": {
"systemFields": {
"query": "请帮我查一下北京明天的天气。",
"sys": {
"conversationHistory": [
{
"role": "user",
"content": "请帮我查一下北京明天的天气。"
}
],
"currentTime": "2026-01-21 15:52:36",
"userId": "wfq",
"conversationId": "0edb3072-8508-48df-9687-00001"
}
},
"userFields": {},
"memory": {},
"permanent_vars": {},
"session_vars": {}
},
"traceloop.entity.path": "开始.workflow",
"traceloop.span.kind": "workflow"
}
},
{
"traceloop.entity.path": "开始.workflow",
"traceloop.span.kind": "workflow"
},
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spanID": "22a21ae0e25027a8",
"operationName": "model.chat",
"startTime": 1768981956511301,
"duration": 1189343,
"tags": {
"traceloop.entity.path": "UserInput.workflow.model.chat"
}
},
{
"traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
"spanID": "5b7d862dd66737c5",
"operationName": "结束.workflow",
"startTime": 1768981956514301,
"duration": 1189333,
"tags": {
"traceloop.entity.input": {
"userFields": {
"result": ""
},
"systemFields": {}
},
"traceloop.entity.name": "结束",
"traceloop.entity.output": {
"responseContent": "已查询北京明天天气,预计为晴天,气温在10°C到20°C之间。",
"userFields": {},
"output_mode": "null",
"systemFields": {}
},
"traceloop.entity.path": "UserInput.workflow.结束.workflow",
"traceloop.span.kind": "workflow"
}
}
]
}
]
}
}
输出格式示例:
{
"score": 1.0,
"reason": "用户请求查询北京明天天气,Agent 轨迹从意图推断到最终回复,逻辑清晰,无冗余步骤,且结果准确,完全达成目标,因此判定为完美实现,得分为1.0。"
}