更新时间:2026-03-09 GMT+08:00
分享

评估器介绍

在评估过程中,评估器扮演着“裁判”的角色,通过量化分析Agent输出结果,或者数据集本身的准确性和质量。在启动评估任务前,必须配置合适的评估器。本章节将详细介绍评估器的概念、类型及评估规则,帮助您在智能体开发平台中高效创建与管理评估器。

评估器的作用

评估器是一种自动化或半自动化的评估工具,能够依据预设的规则对Agent的输出进行多维度分析,生成可量化的评估结果。它能帮助您实现以下目标:

  • 量化评估结果:将主观的输出质量转化为具体的评分或指标,便于横向对比与长期追踪。
  • 提升评估效率:通过自动化流程减少人工干预,显著提高评估速度与结果一致性。
  • 支持多样化评估场景:支持从通用任务到复杂业务逻辑的全面评估,满足不同阶段的评测需求。

评估器的类型

根据来源和创建方式,评估器分为两类:

表1 评估器的类型

类型

说明

预置评估器(平台精选评估器)

由平台统一提供,覆盖常见评估场景,如参考答案遵从度、幻觉现象、轨迹-工具参数填充正确性、任务完成度等。开发者可直接在评估任务中选择并使用,无需自己创建,适用于大多数通用评测场景。详细信息请参见预置评估器

自定义评估器

开发者根据自身业务需求自主创建的评估器。平台提供标准提示词模板,支持基于模板进行二次开发,灵活适配特定业务逻辑或复杂判断条件。适用于个性化、高精度或非标场景的评估任务。详细信息请参考自定义评估器

评估规则介绍

评估器的核心在于其评估规则,决定了如何判断“预期输出”与“实际输出”之间的差异(需要注意的是,评估器的运行并非完全依赖于预期输出,部分评估器支持仅基于实际输出进行独立分析)。根据判断机制的不同,评估规则分为以下两种类型:

  1. 模型判定
    • 适用场景:适用于非确定性、语义理解类、开放性输出的评估任务,如自然语言生成质量、对话逻辑合理性、创意内容生成等。
    • 工作原理:利用大模型作为“裁判”,通过分析预期输出与实际输出之间的语义一致性、完整性、逻辑性等维度,自动生成评分与评语。
    • 实现方式:通过精心设计的Prompt定义评估标准(如“请从准确性、流畅性、相关性三个维度对输出进行打分”),由大模型输出结构化评估结果。

    示例:评估一个客服Agent的回复是否礼貌、准确、完整,使用模型判定评估器可自动判断其语义质量并给出评分。

  2. 代码判定(暂未上线)
    • 适用场景:适用于输出结果具有明确格式、可执行逻辑或数学计算的确定性任务,如API响应验证、数据处理结果比对、数值计算准确性等。
    • 工作原理:通过编写可执行的代码函数(如Python逻辑判断、JSON结构解析、数值比较等),将预期输出与实际输出进行程序化比对,自动判定是否一致。
    • 实现方式:开发者在评估器配置中上传或编写判断逻辑代码,系统在评估时自动执行该代码并返回结果。

相关文档