轨迹-参数填充正确性
轨迹-工具参数填充正确性评估器
|
分类 |
详情 |
|
|---|---|---|
|
基础信息 |
评估器名称 |
轨迹-工具参数填充正确性 |
|
效果说明 |
功能概述 |
评估器会评测Agent运行轨迹中,所有工具的定义与调用参数,判断工具参数填充是否完整,参数的数据类型正确,且没有幻觉入参。 |
|
评估方式 |
LLM评估 |
|
|
评估目标 |
文本、轨迹质量 |
|
|
应用场景 |
适用于Agent工具链调试、自动化流程验证、API集成测试等场景,确保工具调用时参数完整、类型匹配、来源真实,避免因参数缺失、类型错误或幻觉入参导致调用失败或异常行为。 |
|
|
评分标准 |
1.0分 |
工具参数填充完整,所有必填参数均已提供,数据类型与定义一致,无幻觉入参,工具可正常执行。 |
|
0.0分 |
工具参数填充存在错误,包括必填参数缺失、数据类型不匹配、或包含幻觉虚构的参数值,导致工具调用异常。 |
|
评估器参数说明:
|
参数类型 |
参数名称 |
是否必填 |
参数说明 |
|---|---|---|---|
|
输入参数 |
context |
是 |
用户原始输入的完整上下文,描述任务需求及背景信息。 |
|
tool_called |
是 |
Agent实际选择的工具信息,包含工具名称及调用参数。 |
|
|
tool_list |
是 |
系统可用的合法工具列表,每个工具包含名称、描述、功能定义及参数Schema。 |
|
|
输出参数 |
score |
是 |
评估得分(0.0/1.0)。 |
|
reason |
是 |
评分理由说明。 |
输入格式示例:
{
"context": ["用户想查询明天北京到上海的航班信息。"],
"tools_called": [
{
"name": "get_weather",
"reasoning": "The user wants weather info for Beijing.",
"arguments": {"location": "北京", "date": "2026-01-31"}
}
],
"tool_list": [
{
"name": "get_weather",
"description": "获取指定城市的天气信息",
"input_parameters": {
"type": "object",
"properties": {
"location": {"type": "string", "description": "城市名称"},
"date": {"type": "string", "format": "date", "description": "查询日期"}
},
"required": ["location", "date"]
}
}
]
}
输出格式示例:
{
"score": 1.0,
"reason": "该工具调用完全符合Schema定义,参数完整、类型正确且无幻觉参数。"
}