轨迹-参数填充正确性
轨迹-工具参数填充正确性评估器
分类 | 详情 | |
|---|---|---|
基础信息 | 评估器名称 | 轨迹-工具参数填充正确性 |
效果说明 | 功能概述 | 评估器会评测Agent运行轨迹中,所有工具的定义与调用参数,判断工具参数填充是否完整,参数的数据类型正确,且没有幻觉入参。 |
评估方式 | LLM评估 | |
评估目标 | 文本、轨迹质量 | |
应用场景 | 适用于Agent工具链调试、自动化流程验证、API集成测试等场景,确保工具调用时参数完整、类型匹配、来源真实,避免因参数缺失、类型错误或幻觉入参导致调用失败或异常行为。 | |
评分标准 | 1.0分 | 工具参数填充完整,所有必填参数均已提供,数据类型与定义一致,无幻觉入参,工具可正常执行。 |
0.0分 | 工具参数填充存在错误,包括必填参数缺失、数据类型不匹配、或包含幻觉虚构的参数值,导致工具调用异常。 | |
评估器参数说明:
参数类型 | 参数名称 | 是否必填 | 参数说明 |
|---|---|---|---|
输入参数 | context | 是 | 用户原始输入的完整上下文,描述任务需求及背景信息。 |
tools_called | 是 | Agent实际选择的工具信息,包含工具名称及调用参数。 | |
tool_list | 是 | 系统可用的合法工具列表,每个工具包含名称、描述、功能定义及参数Schema。 | |
输出参数 | score | 是 | 评估得分(0.0/1.0)。 |
reason | 是 | 评分理由说明。 |
输入格式示例:
{
"context": ["用户想查询明天北京到上海的航班信息。"],
"tools_called": [
{
"name": "get_weather",
"reasoning": "The user wants weather info for Beijing.",
"arguments": {"location": "北京", "date": "2026-01-31"}
}
],
"tool_list": [
{
"name": "get_weather",
"description": "获取指定城市的天气信息",
"input_parameters": {
"type": "object",
"properties": {
"location": {"type": "string", "description": "城市名称"},
"date": {"type": "string", "format": "date", "description": "查询日期"}
},
"required": ["location", "date"]
}
}
]
} 输出格式示例:
{
"score": 1.0,
"reason": "该工具调用完全符合Schema定义,参数完整、类型正确且无幻觉参数。"
} 
