创建自适应判定评估器
自适应判定评估器旨在降低评估器的编写门槛与难度。与模型判定评估器需要编写复杂的Prompt不同,自适应判定评估器仅需输入自然语言规则描述,系统即可自动将其转化为结构化的评估步骤。
费用说明
使用和调试评估器时会产生模型调用费用,具体计费请参考MaaS模型即服务价格。
前提条件
约束与限制
| 限制 | 说明 |
|---|---|
| 对话类型限制 | 仅支持单轮对话评估,不支持多轮对话。 |
| 评估器使用限制 | 仅支持在离线评估任务中使用,不支持在线评估。 |
| 评分规则数量限制 | 最多支持添加10个评分规则。 |
创建评估器
- 登录AgentArts智能体平台。
- 在左侧导航栏中选择“运营运维 > 评估 > 评估器 ”。
- 在“自定义评估器”页签中,单击右上角的“创建评估器”。
- 在展开的页面中配置评估器信息。具体参数配置请参考表2完成信息配置。
表2 评估器参数说明 参数
说明
基础信息
评估器名称
评估器的名称。
命名规则:
- 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
- 长度限制:2~50个字符。
描述(可选)
评估器的描述。
长度限制:0~200个字符
类型
选择“单轮对话”。
配置信息
评估方法
选择“自适应判定”。
提示词
在输入框中输入自然语言规则描述,如需添加变量,可单击输入框下方的“{{变量名}}”添加变量。输入完成后,单击 预览,系统将自动生成结构化的评估步骤。
例如:
评估 AI 助手回复({{actual_output}})相对于专家标准答案({{reference_output}})的正确性与完整性。
从 {{reference_output}} 中提取核心要点,逐一比对 {{actual_output}} 是否准确覆盖且无事实错误。
确认 {{actual_output}} 是否直接回答了用户问题({{input}}),根据要点覆盖比例和准确性给出 0.0-1.0 的评分。
图1 提示词和评估标准预览
评分规则
定义评估器在执行过程中的评分标准。
例如:
- 1.0分:输出在事实上完全正确、真实,且完整覆盖参考答案的核心要点与细节。语言模糊或包含主观意见可接受。
- 0.5分:输出在事实上基本正确,但遗漏了部分细节(非核心要点),导致回答不够完整。
- 0.0分:输出在事实上错误、不准确,或严重遗漏核心要点。
- 配置完成后单击右下方“调试”,在弹出的页面输入测试数据,单击“开始调试”,在“调试结果”页签中查看调试结果。 图2 调试评估器
图3 查看调试结果
- 调试确认无误后,关闭调试页面。单击“确定”,输入版本信息后发布评估器。
发布完成后,在评估器列表页面即可查看已发布的评估器。