更新时间:2026-04-15 GMT+08:00
分享

复杂工具调用智能体评估

在企业级 AI 落地中,具备工具调用能力的智能体是大模型执行复杂业务逻辑的核心组件。无论是联网搜索、查询新闻,还是查询数据库,它们都需要自主进行多步推理并调用外部工具实现对应的能力。

然而,对于包含工具调用的智能体,传统的“测试智能体回答结果”的测试方法无法有效验证其底层逻辑的正确性。缺乏全链路评估的智能体,频繁面临以下异常场景:

  • 工具错配(选错工具):系统配置了“查询天气”和“查询航班”两个工具,用户意图为查询机票,智能体却调用了天气工具。
  • 参数幻觉(参数提取错误):工具中API规范要求传入YYYY-MM-DD格式的绝对日期,大模型却直接传入了自然语言“明天”;或者凭空生成了用户指令中未提供的参数信息。
  • 逻辑死循环(轨迹异常):面对复杂任务,智能体反复调用同一个响应失败的API,陷入逻辑死循环,持续消耗大量的Token与系统计算资源。
要保证此类智能体的质量,必须建立一套基于智能体运行轨迹数据的评估方法。

步骤一:创建带有工具的智能体

示例中将创建一个带有天气查询工具的智能体。

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“开发中心 > 智能体管理”,在“单智能体”页签,单击“创建单智能体”。

    图1 创建单智能体

  3. 填写名称和描述为“工具调用智能体”后,单击“立即创建”。
  4. 在智能体编辑页面,在提示词输入框中填写提示词。

    提示词内容:
    你是一个具备工具调用能力的智能助手,能够使用天气查询插件。请根据用户的问题自主判断并调用相应的工具获取信息,然后基于工具返回的结果进行准确回答。
    图2 填写提示词

  5. 在智能体编辑页面,添加插件。在弹窗中选择“插件广场”,搜索并添加“心知天气(限时体验)”。

    图3 添加插件

  6. 输入天气相关的问题进行调试验证,测试完成后,单击右上角“提交版本”进行发布。

    只有经过发布的智能体,才可以进行评估。提交版本时注意需要开启日志记录、指标和调用链开关,开启后才会统计智能体的运行时数据,用于后续的在线评估。

    图4 提交版本
    图5 开启日志记录、指标、调用链统计

步骤二:选择评估器

针对工具调用场景,平台预置了针对工具调用链路的专业评估器,推荐采用以下评估组合:

  • 工具选择质量评估器

    评估器不关注最终生成的自然语言回复,而是直接将用户的原始意图与大模型实际调用的工具定义进行比对。精准识别智能体是否捏造了不存在的工具名称,或者选错了与用户意图不匹配的工具。

  • 轨迹-参数填充正确性评估器

    评估器会使用严格的参数校验机制,提取Trace轨迹中的工具请求,核对每一个传入参数的名称、数据类型是否与工具的Schema定义100%一致,并验证参数值是否真实来源于用户上下文。

  • 工具参数正确性评估器

    评估器会比对用户的提问上下文与Agent实际生成的参数键值对,重点审查“有没有漏提、错提,或者包含了与问题无关的错误参数”。

  • 轨迹质量评估器

    审查Agent的内部推理过程,评估其逻辑连贯性、是否有清晰的进展过程和目标达成情况。

步骤三:创建在线评估任务

与RAG智能体依赖人工构造“离线静态评测集”不同,评估工具调用智能体时,需要使用平台的“在线评估”模式。

本示例将采用“在线评估”模式,直接从智能体的真实历史对话中抽取数据进行全链路校验。

  1. 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签单击“创建评估任务”。
  2. 填写评估任务名称和描述,可填写为“智能体评估”。选择“在线评估”。执行类型选择“立即执行”。评估对象选择步骤一中创建的智能体。评估粒度选择“工具”

    图6 选择评估对象

  3. 通过灵活配置“采样策略”,可以实现对历史缺陷的回溯,或对未来业务的常态化监控。

    在线评估的核心优势在于“直接从真实的业务流量中抽取数据”。但在真实的生产环境中,智能体每天可能产生数以万计的交互日志,如果全量评估,不仅耗费极高的大模型算力成本,也难以聚焦核心问题。因此,平台引入了“采样策略”

    • 筛选条件:平台支持多维度的日志过滤,您可以根据需要叠加使用。
      • 性能排查:选择 “首token时延”、“任务时延”或“Tokens”。例如筛选“任务时延 > 5000ms”的记录,专门评估由于工具调用超时导致的低效轨迹。
      • 异常诊断:选择“Input”(用户输入)、“Output”(Agent输出)、“SpanName”(特定节点)或“userId”。
      • 人工介入:选择“人工标注”状态,对已经过人工初筛的日志进行二次自动化深度复核。
    • 采样比例:设置范围为 1% ~ 100%。如果设置为100%,代表将筛选条件范围内符合要求的所有Trace数据全量提取;在日常巡检中,为了控制大模型评估Token成本,建议设置为10%~20%进行随机抽样。
    • 采样数据上限:设置单次评估任务最多抽取1 ~ 500 条数据,防止由于筛选条件过宽导致抽取数据量过大、评估时间过长。
    • 时间范围:这是决定在线评估任务性质的关键参数,分为两种模式。
      • 回流历史数据:用于复盘过去发生的业务情况,支持快捷设置“历史时间范围”(如近1小时、近3小时、直至近30天)。适用场景:系统出现了大量报错,今天紧急创建一个“近24小时 + 请求状态为失败”的评估任务进行诊断。
      • 回流新增数据:用于建立未来的长期质量监控机制,支持设定生效的“时间范围(起止日期)”和执行的“重复频率(如:天重复)”。适用场景:配置一个未来一个月的“天重复”任务,每天自动抽取50条新产生的日志进行体检,实现Agent的常态化质量监控。

    为了让您更好地利用在线采样能力,推荐以下三种经典的排障与巡检组合:

    客诉紧急排障组合

    • 时间范围:回流历史数据(近 1 小时 或 近 3 小时)
    • 筛选条件:请求状态 = 失败,或userId = [投诉用户的ID]

    高成本Token消耗核查组合

    • 时间范围:回流历史数据(近7天)
    • 筛选条件:Tokens > [单次调用的异常阈值,如 8000]
    • 采样比例与上限:100%,100条。重点配合“轨迹质量”评估器,查询导致Token飙升的调用

    日常无感健康巡检组合

    • 时间范围:回流新数据(设定未来三个月),重复频率 = 天重复。
    • 筛选条件:无(全局监控)
    • 采样比例与上限:5%,50条。以此建立每天自动出具的质量体检日报。
    图7 选择采样策略

  4. 选择评估器,在“平台精选”评估器中选择工具相关评估器。

    图8 选择评估器

  5. 评估任务配置完成后,单击“发起任务”。

步骤四:使用API调用智能体产生Trace数据

当前仅上报通过API调用产生的数据。在线评估是基于Trace数据的评估,因此需要先通过API触发智能体的调用。

调用方法请参考《最佳实践》“API调用实践 > 使用API调用单/多智能体”。

步骤五:分析评估报告、人工复核评估数据

通过API调用智能体后,会在“观测 > 调用链分析”页面看到Trace数据信息。

图9 查看调用API产生的Trace数据

在线评估功能,会依次读取Trace数据,并进行评测。等待评估任务完成后,您将获取到一份多维度的评估报告。在这里,您可以通过查看评估器的打分数据,直观地了解智能体的水平。

  • 通过总体得分和各维度评分数据,了解当前智能体的整体水位(例如,整体正确性得分较高,但“幻觉现象”得分极低等)。
  • 在“详情”数据和报告明细中,查看得分低的数据、评分理由。将智能体的实际输出和参考答案进行比对,分析差异。
    图10 查看评估报告
    图11 查看评估详情

请注意:仅查看评估分数和比对输出文本,绝不是评估的终点。评估的真正价值在于,通过深度剖析评估器给出的评分理由,精准定位智能体底层执行链路中的缺陷(如知识库检索为空、Prompt约束力不足等),并通过持续的针对性调优,从根本上解决智能体的异常行为。

您可以通过以下阶段完成从数据解读到智能体优化的闭环。

相关文档