更新时间:2026-06-10 GMT+08:00
分享

创建自适应判定评估器

自适应判定评估器旨在降低评估器的编写门槛与难度。与模型判定评估器需要编写复杂的Prompt不同,自适应判定评估器仅需输入自然语言规则描述,系统即可自动将其转化为结构化的评估步骤

费用说明

使用和调试评估器时会产生模型调用费用,具体计费请参考MaaS模型即服务价格

前提条件

开通AgentArts服务

约束与限制

表1 使用限制

限制

说明

对话类型限制

仅支持单轮对话评估,不支持多轮对话。

评估器使用限制

仅支持在离线评估任务中使用,不支持在线评估。

评分规则数量限制

最多支持添加10个评分规则。

创建评估器

  1. 登录AgentArts智能体平台
  2. 在左侧导航栏中选择“运营运维 > 评估 > 评估器 ”。
  3. 在“自定义评估器”页签中,单击右上角的“创建评估器”。
  4. 在展开的页面中配置评估器信息。具体参数配置请参考表2完成信息配置。

    表2 评估器参数说明

    参数

    说明

    基础信息

    评估器名称

    评估器的名称。

    命名规则:

    • 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    描述(可选)

    评估器的描述。

    长度限制:0~200个字符

    类型

    选择“单轮对话”

    配置信息

    评估方法

    选择“自适应判定”

    提示词

    在输入框中输入自然语言规则描述,如需添加变量,可单击输入框下方的“{{变量名}}”添加变量。输入完成后,单击 预览,系统将自动生成结构化的评估步骤。

    例如:

    评估 AI 助手回复({{actual_output}})相对于专家标准答案({{reference_output}})的正确性与完整性。

    从 {{reference_output}} 中提取核心要点,逐一比对 {{actual_output}} 是否准确覆盖且无事实错误。

    确认 {{actual_output}} 是否直接回答了用户问题({{input}}),根据要点覆盖比例和准确性给出 0.0-1.0 的评分。

    图1 提示词和评估标准预览

    评分规则

    定义评估器在执行过中的评分标准。

    例如:

    • 1.0分:输出在事实上完全正确、真实,且完整覆盖参考答案的核心要点与细节。语言模糊或包含主观意见可接受。
    • 0.5分:输出在事实上基本正确,但遗漏了部分细节(非核心要点),导致回答不够完整。
    • 0.0分:输出在事实上错误、不准确,或严重遗漏核心要点。

  5. 配置完成后单击右下方“调试”,在弹出的页面输入测试数据,单击“开始调试”,在“调试结果”页签中查看调试结果。

    图2 调试评估器
    图3 查看调试结果

  6. 调试确认无误后,关闭调试页面。单击“确定”,输入版本信息后发布评估器。

    发布完成后,在评估器列表页面即可查看已发布的评估器。

相关文档