复杂工具调用智能体评估

在企业级AI落地中，具备工具调用能力的智能体是大模型执行复杂业务逻辑的核心组件。无论是联网搜索、查询新闻，还是查询数据库，它们都需要自主进行多步推理并调用外部工具实现对应的能力。

然而，对于包含工具调用的智能体，传统的“测试智能体回答结果”的测试方法无法有效验证其底层逻辑的正确性。缺乏全链路评估的智能体，频繁面临以下异常场景：

工具错配（选错工具）：系统配置了“查询天气”和“查询航班”两个工具，用户意图为查询机票，智能体却调用了天气工具。
参数幻觉（参数提取错误）：工具中API规范要求传入YYYY-MM-DD格式的绝对日期，大模型却直接传入了自然语言“明天”；或者凭空生成了用户指令中未提供的参数信息。
逻辑死循环（轨迹异常）：面对复杂任务，智能体反复调用同一个响应失败的API，陷入逻辑死循环，持续消耗大量的Token与系统计算资源。

要保证此类智能体的质量，必须建立一套基于智能体运行轨迹数据的评估方法。

步骤一：创建带有工具的智能体

示例中将创建一个带有天气查询工具的智能体。

登录AgentArts智能体开发平台。
在左侧导航栏中选择“开发中心 > 智能体管理”，在“单智能体”页签，单击“创建单智能体”。

图1 创建单智能体
填写名称和描述为“工具调用智能体”后，单击“立即创建”。

在智能体编辑页面，在提示词输入框中填写提示词。

提示词内容：

你是一个具备工具调用能力的智能助手，能够使用天气查询插件。请根据用户的问题自主判断并调用相应的工具获取信息，然后基于工具返回的结果进行准确回答。

图2 填写提示词

在智能体编辑页面，添加插件。在弹窗中选择“插件广场”，搜索并添加“心知天气(限时体验)”。

图3 添加插件
输入天气相关的问题进行调试验证，测试完成后，单击右上角“提交版本”进行发布。

只有经过发布的智能体，才可以进行评估。提交版本时注意需要开启日志记录、指标和调用链开关，开启后才会统计智能体的运行时数据，用于后续的在线评估。

图4 提交版本

图5 开启日志记录、指标、调用链统计

步骤二：选择评估器

针对工具调用场景，平台预置了针对工具调用链路的专业评估器，推荐采用以下评估组合：

工具选择质量评估器
评估器不关注最终生成的自然语言回复，而是直接将用户的原始意图与大模型实际调用的工具定义进行比对。精准识别智能体是否捏造了不存在的工具名称，或者选错了与用户意图不匹配的工具。
轨迹-参数填充正确性评估器
评估器会使用严格的参数校验机制，提取Trace轨迹中的工具请求，核对每一个传入参数的名称、数据类型是否与工具的Schema定义100%一致，并验证参数值是否真实来源于用户上下文。
工具参数正确性评估器
评估器会比对用户的提问上下文与Agent实际生成的参数键值对，重点审查“有没有漏提、错提，或者包含了与问题无关的错误参数”。
轨迹质量评估器
审查Agent的内部推理过程，评估其逻辑连贯性、是否有清晰的进展过程和目标达成情况。

步骤三：创建在线评估任务

与RAG智能体依赖人工构造“离线静态评测集”不同，评估工具调用智能体时，需要使用平台的“在线评估”模式。

本示例将采用“在线评估”模式，直接从智能体的真实历史对话中抽取数据进行全链路校验。

在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签单击“创建评估任务”。
填写评估任务名称和描述，可填写为“智能体评估”。选择“在线评估”。执行类型选择“立即执行”。评估对象选择步骤一中创建的智能体。评估粒度选择“工具”。

图6 选择评估对象
通过灵活配置“采样策略”，可以实现对历史缺陷的回溯，或对未来业务的常态化监控。

在线评估的核心优势在于“直接从真实的业务流量中抽取数据”。但在真实的生产环境中，智能体每天可能产生数以万计的交互日志，如果全量评估，不仅耗费极高的大模型算力成本，也难以聚焦核心问题。因此，平台引入了“采样策略”。
- 筛选条件：平台支持多维度的日志过滤，您可以根据需要叠加使用。
  - 性能排查：选择 “首token时延”、“任务时延”或“Tokens”。例如筛选“任务时延>5000ms”的记录，专门评估由于工具调用超时导致的低效轨迹。
  - 异常诊断：选择“Input”（用户输入）、“Output”（Agent输出）、“SpanName”（特定节点）或“userId”。
  - 人工介入：选择“人工标注”状态，对已经过人工初筛的日志进行二次自动化深度复核。
- 采样比例：设置范围为 1%~100%。如果设置为100%，代表将筛选条件范围内符合要求的所有Trace数据全量提取；在日常巡检中，为了控制大模型评估Token成本，建议设置为10%~20%进行随机抽样。
- 采样数据上限：设置单次评估任务最多抽取1~500 条数据，防止由于筛选条件过宽导致抽取数据量过大、评估时间过长。
- 时间范围：这是决定在线评估任务性质的关键参数，分为两种模式。
  - 回流历史数据：用于复盘过去发生的业务情况，支持快捷设置“历史时间范围”（如近1小时、近3小时、直至近30天）。适用场景：系统出现了大量报错，今天紧急创建一个“近24小时 + 请求状态为失败”的评估任务进行诊断。
  - 回流新数据：用于建立未来的长期质量监控机制，支持设定生效的“时间范围（起止日期）”和执行的“重复频率（如：天重复）”。适用场景：配置一个未来多天的“天重复”任务，每天自动抽取50条新产生的日志进行体检，实现Agent的常态化质量监控。
为了让您更好地利用在线采样能力，推荐以下三种经典的排障与巡检组合：

客诉紧急排障组合
- 时间范围：回流历史数据（近1小时或近3小时）
- 筛选条件：请求状态=失败，或userId=[投诉用户的ID]
高成本Token消耗核查组合
- 时间范围：回流历史数据（近7天）
- 筛选条件：Tokens > [单次调用的异常阈值，如8000]
- 采样比例与上限：100%，100条。重点配合“轨迹质量”评估器，查询导致Token飙升的调用。
日常无感健康巡检组合
- 时间范围：回流新数据（设定未来多天），重复频率=天重复。
- 筛选条件：无（全局监控）
- 采样比例与上限：5%，50条。以此建立每天自动出具的质量体检日报。
图7 选择采样策略
选择评估器，在“平台精选”评估器中选择工具相关评估器。

图8 选择评估器
评估任务配置完成后，单击“发起任务”。