更新时间:2026-03-09 GMT+08:00
分享

工具参数正确性

工具参数正确性评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

工具参数正确性

效果说明

功能概述

判断生成的调用是否从问题中提取了完全正确的参数。

评估方式

LLM评估

评估目标

文本、工具调用

应用场景

适用于Agent工具调用链路验证,如API参数填充、数据库查询构造、函数调用生成等场景,确保从用户输入中提取的参数名称、类型、值均准确无误。

评分标准

1.0分

参数提取完全正确,所有必需参数均已识别,参数名称、类型、值与问题要求完全一致,无遗漏或错误。

0.0分

参数提取存在错误,包括必需参数遗漏、参数名称/类型/值错误,或包含无关参数。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

context

用户原始输入的完整上下文,包含需要提取参数的自然语言描述或指令。

tool_called

Agent实际生成的工具调用内容,包括工具名称及提取的参数键值对。

tool_list

可用的工具定义列表,包含各工具的名称、描述、参数Schema及必填项要求。

输出参数

score

评估得分(0.0/1.0)。

reason

评分理由说明。

输入格式示例:

{
  "context": ["用户昨天预订了北京到上海的航班,航班号是CA1830,起飞时间是2026-02-01 08:00。"],
  "tools_called": [
    {
      "name": "book_flight",
      "arguments": {
        "departure": "北京",
        "destination": "上海",
        "flight_number": "CA1830",
        "departure_time": "2026-02-01T08:00:00"
      }
    }
  ],
  "tool_list": [
    {
      "name": "book_flight",
      "description": "预订航班的工具",
      "input_parameters": {
        "type": "object",
        "properties": {
          "departure": {"type": "string"},
          "destination": {"type": "string"},
          "flight_number": {"type": "string"},
          "departure_time": {"type": "string", "format": "date-time"}
        },
        "required": ["departure", "destination", "flight_number", "departure_time"]
      }
    }
  ]
}

输出格式示例:

{
  "score": 1.0,
  "reason": "所有参数均符合工具定义,名称、类型完全匹配,且所有值均来自历史上下文,无虚构内容,符合零幻觉要求。"
}

相关文档