更新时间:2026-03-09 GMT+08:00
分享

工具选择质量

工具选择质量评估器

表1 评估器信息

分类

详情

基础信息

评估器名称

工具选择质量

效果说明

功能概述

评估AI选择的工具是否合法、功能匹配、无虚构。

评估方式

LLM评估

评估目标

文本、工具调用

应用场景

适用于多工具Agent系统的能力验证,如智能客服、自动化运维、复杂任务调度等场景,确保AI从工具库中选择的工具真实存在、功能与任务需求匹配,避免hallucination导致的无效调用或执行错误。

评分标准

1.0分

工具选择完全正确,所选工具存在于工具列表中,功能与任务需求精准匹配,无虚构或误选。

0.0分

工具选择存在错误,包括选择不存在的虚构工具、功能不匹配的工具,或遗漏必需工具。

评估器参数说明:

表2 评估器参数说明

参数类型

参数名称

是否必填

参数说明

输入参数

context

用户原始输入的完整上下文,描述任务需求及背景信息。

tool_called

Agent实际选择的工具信息,包含工具名称及调用参数。

tool_list

系统可用的合法工具列表,每个工具包含名称、描述、功能定义及参数Schema。

输出参数

score

评估得分(0.0/1.0)。

reason

评分理由说明。

输入格式示例:

{
  "context": ["用户想查询明天北京到上海的航班信息。"],
  "tools_called": ["search_flights"],
  "tool_list": [
    {
      "name": "search_flights",
      "description": "查询航班信息,支持出发地、目的地、日期"
    },
    {
      "name": "book_hotel",
      "description": "预订酒店"
    },
    {
      "name": "cancel_booking",
      "description": "取消预订"
    }
  ]
}

输出格式示例:

{
  "score": 1.0,
  "reason": "所选工具 'search_flights' 存在于可调用列表中,功能与用户查询航班的意图完全匹配,无虚构或错配工具。"
}

相关文档