更新时间:2026-03-09 GMT+08:00
分享

轨迹质量

轨迹质量评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

轨迹质量

效果说明

功能概述

分析Agent的内部轨迹,评估其逻辑连贯性、清晰的进展过程和目标达成情况。

评估方式

LLM评估

评估目标

文本、轨迹质量

应用场景

适用于需要审计Agent决策过程的场景,如复杂问题求解、多步推理任务、工具链调用追踪等。

评分标准

1.0分

轨迹逻辑严密,步骤清晰有序,每一步都有效推进目标,最终成功达成任务。

0.75分

轨迹整体合理,个别步骤存在轻微冗余或顺序可优化,但不影响最终目标达成。

0.5

轨迹存在明显问题,如有冗余步骤、逻辑跳跃或局部偏离,但最终仍能完成目标。

0.25

轨迹混乱,步骤大量冗余或严重偏离目标,虽经修正后勉强完成,但效率极低。

0.0分

轨迹完全偏离目标,逻辑断裂,无法形成有效进展,任务最终失败。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

trajectory

Agent的内部轨迹数据。

输出参数

score

评估得分(0.0 / 0.25/ 0.5 / 0.75 / 1.0)。

reason

评分理由说明。

输入格式示例:

{
  "trajectory": {
    "data": [
      {
        "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
        "spans": [
          {
            "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
            "spanID": "638cd190463ab722",
            "operationName": "开始.workflow",
            "startTime": 1768981956508301,
            "duration": 2000,
            "tags": {
              "traceloop.entity.input": {
                "query": "请帮我查一下北京明天的天气。",
                "sys": {
                  "conversationHistory": [
                    {
                      "role": "user",
                      "content": "请帮我查一下北京明天的天气。"
                    }
                  ],
                  "conversationId": "0edb3072-8508-48df-9687-00001",
                  "userId": "wfq",
                  "currentTime": "2026-01-21 15:52:36"
                }
              },
              "conversationId": "0edb3072-8508-48df-9687-00001",
              "userId": "wfq",
              "ext": "hello",
              "conversationHistory": {},
              "traceloop.entity.name": "开始",
              "traceloop.entity.output": {
                "systemFields": {
                  "query": "请帮我查一下北京明天的天气。",
                  "sys": {
                    "conversationHistory": [
                      {
                        "role": "user",
                        "content": "请帮我查一下北京明天的天气。"
                      }
                    ],
                    "currentTime": "2026-01-21 15:52:36",
                    "userId": "wfq",
                    "conversationId": "0edb3072-8508-48df-9687-00001"
                  }
                },
                "userFields": {},
                "memory": {},
                "permanent_vars": {},
                "session_vars": {}
              },
              "traceloop.entity.path": "开始.workflow",
              "traceloop.span.kind": "workflow"
            }
          },
          {
            "traceloop.entity.path": "开始.workflow",
            "traceloop.span.kind": "workflow"
          },
          {
            "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
            "spanID": "22a21ae0e25027a8",
            "operationName": "model.chat",
            "startTime": 1768981956511301,
            "duration": 1189343,
            "tags": {
              "traceloop.entity.path": "UserInput.workflow.model.chat"
            }
          },
          {
            "traceID": "aaf7e2f4f7c317d12080bacdb468a8c5",
            "spanID": "5b7d862dd66737c5",
            "operationName": "结束.workflow",
            "startTime": 1768981956514301,
            "duration": 1189333,
            "tags": {
              "traceloop.entity.input": {
                "userFields": {
                  "result": ""
                },
                "systemFields": {}
              },
              "traceloop.entity.name": "结束",
              "traceloop.entity.output": {
                "responseContent": "已查询北京明天天气,预计为晴天,气温在10°C到20°C之间。",
                "userFields": {},
                "output_mode": "null",
                "systemFields": {}
              },
              "traceloop.entity.path": "UserInput.workflow.结束.workflow",
              "traceloop.span.kind": "workflow"
            }
          }
        ]
      }
    ]
  }
}

输出格式示例:

{
  "score": 1.0,
  "reason": "用户请求查询北京明天天气,Agent 轨迹从意图推断到最终回复,逻辑清晰,无冗余步骤,且结果准确,完全达成目标,因此判定为完美实现,得分为1.0。"
}

相关文档