评估器介绍

在评估过程中，评估器扮演着“裁判”的角色，通过量化分析Agent输出结果，或者数据集本身的准确性和质量。在启动评估任务前，必须配置合适的评估器。本章节将详细介绍评估器的概念、类型及评估规则，帮助您在智能体开发平台中高效创建与管理评估器。

评估器是一种自动化或半自动化的评估工具，能够依据预设的规则对Agent的输出进行多维度分析，生成可量化的评估结果。它能帮助您实现以下目标：

根据来源和创建方式，评估器分为两类：

表1 评估器的类型
类型	说明
预置评估器（平台精选评估器）	由平台统一提供，覆盖常见评估场景，如参考答案遵从度、幻觉现象、轨迹-工具参数填充正确性、任务完成度等。开发者可直接在评估任务中选择并使用，无需自己创建，适用于大多数通用评测场景。详细信息请参见预置评估器。
自定义评估器	开发者根据自身业务需求自主创建的评估器。平台提供标准提示词模板，支持基于模板进行二次开发，灵活适配特定业务逻辑或复杂判断条件。适用于个性化、高精度或非标场景的评估任务。详细信息请参考自定义评估器。

评估器的核心在于其评估规则，决定了如何判断“预期输出”与“实际输出”之间的差异（需要注意的是，评估器的运行并非完全依赖于预期输出，部分评估器支持仅基于实际输出进行独立分析）。根据判断机制的不同，评估规则分为以下两种类型：

模型判定
- 适用场景：适用于非确定性、语义理解类、开放性输出的评估任务，如自然语言生成质量、对话逻辑合理性、创意内容生成等。
- 工作原理：利用大模型作为“裁判”，通过分析预期输出与实际输出之间的语义一致性、完整性、逻辑性等维度，自动生成评分与评语。
- 实现方式：通过精心设计的Prompt定义评估标准（如“请从准确性、流畅性、相关性三个维度对输出进行打分”），由大模型输出结构化评估结果。
示例：评估一个客服Agent的回复是否礼貌、准确、完整，使用模型判定评估器可自动判断其语义质量并给出评分。
代码判定（暂未上线）
- 适用场景：适用于输出结果具有明确格式、可执行逻辑或数学计算的确定性任务，如API响应验证、数据处理结果比对、数值计算准确性等。
- 工作原理：通过编写可执行的代码函数（如Python逻辑判断、JSON结构解析、数值比较等），将预期输出与实际输出进行程序化比对，自动判定是否一致。
- 实现方式：开发者在评估器配置中上传或编写判断逻辑代码，系统在评估时自动执行该代码并返回结果。

父主题：评估器