更新时间:2026-04-15 GMT+08:00
分享

轨迹质量

轨迹质量评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

轨迹质量

效果说明

功能概述

分析Agent的内部轨迹,评估其逻辑连贯性、是否有清晰的进展过程和目标达成情况。

评估方式

LLM评估

评估目标

文本、轨迹质量

适用场景

在线评估

应用场景

适用于需要审计Agent决策过程的场景,如复杂问题求解、多步推理任务、工具链调用追踪等。

评分标准

1.0分

轨迹逻辑严密,步骤清晰有序,每一步都有效推进目标,最终成功达成任务。

0.75分

轨迹整体合理,个别步骤存在轻微冗余或顺序可优化,但不影响最终目标达成。

0.5分

轨迹存在明显问题,如有冗余步骤、逻辑跳跃或局部偏离,但最终仍能完成目标。

0.25分

轨迹混乱,步骤大量冗余或严重偏离目标,虽经修正后勉强完成,但效率极低。

0.0分

轨迹完全偏离目标,逻辑断裂,无法形成有效进展,任务最终失败。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

trajectory

Agent的内部轨迹数据。

输出参数

score

评估得分(0.0 / 0.25/ 0.5 / 0.75 / 1.0)。

reason

评分理由说明。

输入格式示例:

{
  "trajectory": {
    "data": [
      {
        "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
        "spans": [
          {
            "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
            "spanID": "638cd190463ab722",
            "operationName": "开始.workflow",
            "startTime": 1768981956508301,
            "duration": 2000,
            "tags": {
              "traceloop.entity.input": {
                "query": "请帮我查一下北京明天的天气。",
                "sys": {
                  "conversationHistory": [
                    {
                      "role": "user",
                      "content": "请帮我查一下北京明天的天气。"
                    }
                  ],
                  "conversationId": "0edb3072-8508-48df-9687-00001",
                  "userId": "wfq",
                  "currentTime": "2026-01-21 15:52:36"
                }
              },
              "conversationId": "0edb3072-8508-48df-9687-00001",
              "userId": "wfq",
              "ext": "hello",
              "conversationHistory": {},
              "traceloop.entity.name": "开始",
              "traceloop.entity.output": {
                "systemFields": {
                  "query": "请帮我查一下北京明天的天气。",
                  "sys": {
                    "conversationHistory": [
                      {
                        "role": "user",
                        "content": "请帮我查一下北京明天的天气。"
                      }
                    ],
                    "currentTime": "2026-01-21 15:52:36",
                    "userId": "wfq",
                    "conversationId": "0edb3072-8508-48df-9687-00001"
                  }
                },
                "userFields": {},
                "memory": {},
                "permanent_vars": {},
                "session_vars": {}
              },
              "traceloop.entity.path": "开始.workflow",
              "traceloop.span.kind": "workflow"
            }
          },
          {
            "traceloop.entity.path": "开始.workflow",
            "traceloop.span.kind": "workflow"
          },
          {
            "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
            "spanID": "22a21ae0e25027a8",
            "operationName": "model.chat",
            "startTime": 1768981956511301,
            "duration": 1189343,
            "tags": {
              "traceloop.entity.path": "UserInput.workflow.model.chat"
            }
          },
          {
            "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
            "spanID": "5b7d862dd66737c5",
            "operationName": "结束.workflow",
            "startTime": 1768981956514301,
            "duration": 1189333,
            "tags": {
              "traceloop.entity.input": {
                "userFields": {
                  "result": ""
                },
                "systemFields": {}
              },
              "traceloop.entity.name": "结束",
              "traceloop.entity.output": {
                "responseContent": "已查询北京明天天气,预计为晴天,气温在10°C到20°C之间。",
                "userFields": {},
                "output_mode": "null",
                "systemFields": {}
              },
              "traceloop.entity.path": "UserInput.workflow.结束.workflow",
              "traceloop.span.kind": "workflow"
            }
          }
        ]
      }
    ]
  }
}

输出格式示例:

{
  "score": 1.0,
  "reason": "用户请求查询北京明天天气,Agent 轨迹从意图推断到最终回复,逻辑清晰,无冗余步骤,且结果准确,完全达成目标,因此判定为完美实现,得分为1.0。"
}

相关文档