工具选择质量

工具选择质量评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	工具选择质量
效果说明	功能概述	评估AI选择的工具是否合法、功能匹配、无虚构。
	评估方式	LLM评估
	评估目标	文本、工具调用
	应用场景	适用于多工具Agent系统的能力验证，如智能客服、自动化运维、复杂任务调度等场景，确保AI从工具库中选择的工具真实存在、功能与任务需求匹配，避免hallucination导致的无效调用或执行错误。
评分标准	1.0分	工具选择完全正确，所选工具存在于工具列表中，功能与任务需求精准匹配，无虚构或误选。
评分标准	0.0分	工具选择存在错误，包括选择不存在的虚构工具、功能不匹配的工具，或遗漏必需工具。

评估器参数说明：

表2 评估器参数说明
参数类型	参数名称	是否必填	参数说明
输入参数	context	是	用户原始输入的完整上下文，描述任务需求及背景信息。
	tools_called	是	Agent实际选择的工具信息，包含工具名称及调用参数。
	tool_list	是	系统可用的合法工具列表，每个工具包含名称、描述、功能定义及参数Schema。
输出参数	score	是	评估得分（0.0/1.0）。
输出参数	reason	是	评分理由说明。

输入格式示例：

{
  "context": ["用户想查询明天北京到上海的航班信息。"],
  "tools_called": [{"name": "search_flights"}],
  "tool_list": [
    {
      "name": "search_flights",
      "description": "查询航班信息，支持出发地、目的地、日期"
    },
    {
      "name": "book_hotel",
      "description": "预订酒店"
    },
    {
      "name": "cancel_booking",
      "description": "取消预订"
    }
  ]
}

输出格式示例：

{
  "score": 1.0,
  "reason": "所选工具 'search_flights' 存在于可调用列表中，功能与用户查询航班的意图完全匹配，无虚构或错配工具。"
}

父主题：预置评估器

上一篇：工具参数正确性

下一篇：幻觉现象

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

工具选择质量

相关文档

意见反馈

文档内容是否对您有帮助？