工具选择质量
工具选择质量评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
工具选择质量 |
|
效果说明 |
功能概述 |
评估AI选择的工具是否合法、功能匹配、无虚构。 |
|
评估方式 |
LLM评估 |
|
|
评估目标 |
文本、工具调用 |
|
|
应用场景 |
适用于多工具Agent系统的能力验证,如智能客服、自动化运维、复杂任务调度等场景,确保AI从工具库中选择的工具真实存在、功能与任务需求匹配,避免hallucination导致的无效调用或执行错误。 |
|
|
评分标准 |
1.0分 |
工具选择完全正确,所选工具存在于工具列表中,功能与任务需求精准匹配,无虚构或误选。 |
|
0.0分 |
工具选择存在错误,包括选择不存在的虚构工具、功能不匹配的工具,或遗漏必需工具。 |
|
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入参数 |
context |
是 |
用户原始输入的完整上下文,描述任务需求及背景信息。 |
|
tool_called |
是 |
Agent实际选择的工具信息,包含工具名称及调用参数。 |
|
|
tool_list |
是 |
系统可用的合法工具列表,每个工具包含名称、描述、功能定义及参数Schema。 |
|
|
输出参数 |
score |
是 |
评估得分(0.0/1.0)。 |
|
reason |
是 |
评分理由说明。 |
输入格式示例:
{
"context": ["用户想查询明天北京到上海的航班信息。"],
"tools_called": ["search_flights"],
"tool_list": [
{
"name": "search_flights",
"description": "查询航班信息,支持出发地、目的地、日期"
},
{
"name": "book_hotel",
"description": "预订酒店"
},
{
"name": "cancel_booking",
"description": "取消预订"
}
]
}
输出格式示例:
{
"score": 1.0,
"reason": "所选工具 'search_flights' 存在于可调用列表中,功能与用户查询航班的意图完全匹配,无虚构或错配工具。"
}