更新时间:2026-03-09 GMT+08:00
分享

轨迹-参数填充正确性

轨迹-工具参数填充正确性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

轨迹-工具参数填充正确性

效果说明

功能概述

评估器会评测Agent运行轨迹中,所有工具的定义与调用参数,判断工具参数填充是否完整,参数的数据类型正确,且没有幻觉入参。

评估方式

LLM评估

评估目标

文本、轨迹质量

应用场景

适用于Agent工具链调试、自动化流程验证、API集成测试等场景,确保工具调用时参数完整、类型匹配、来源真实,避免因参数缺失、类型错误或幻觉入参导致调用失败或异常行为。

评分标准

1.0分

工具参数填充完整,所有必填参数均已提供,数据类型与定义一致,无幻觉入参,工具可正常执行。

0.0分

工具参数填充存在错误,包括必填参数缺失、数据类型不匹配、或包含幻觉虚构的参数值,导致工具调用异常。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

context

用户原始输入的完整上下文,描述任务需求及背景信息。

tool_called

Agent实际选择的工具信息,包含工具名称及调用参数。

tool_list

系统可用的合法工具列表,每个工具包含名称、描述、功能定义及参数Schema。

输出参数

score

评估得分(0.0/1.0)。

reason

评分理由说明。

输入格式示例:

{
  "context": ["用户想查询明天北京到上海的航班信息。"],
  "tools_called": [
    {
      "name": "get_weather",
      "reasoning": "The user wants weather info for Beijing.",
      "arguments": {"location": "北京", "date": "2026-01-31"}
    }
  ],
  "tool_list": [
    {
      "name": "get_weather",
      "description": "获取指定城市的天气信息",
      "input_parameters": {
        "type": "object",
        "properties": {
          "location": {"type": "string", "description": "城市名称"},
          "date": {"type": "string", "format": "date", "description": "查询日期"}
        },
        "required": ["location", "date"]
      }
    }
  ]
}

输出格式示例:

{
  "score": 1.0,
  "reason": "该工具调用完全符合Schema定义,参数完整、类型正确且无幻觉参数。"
}

相关文档