文档首页/ 智果（AgentArts）智能体平台/ 智能体运营运维/ 智能体评估/ 评估器/ 自定义评估器/ 创建自适应判定评估器

更新时间：2026-07-17 GMT+08:00

创建自适应判定评估器

自适应判定评估器旨在降低评估器的编写门槛。与模型判定评估器需要编写复杂的Prompt不同，自适应判定评估器仅需输入自然语言规则描述，系统即可自动将其转化为结构化的评估步骤。

适用于非技术运营人员快速构建评估标准，或对评估逻辑要求相对简单、无需精细控制Prompt的场景。

费用说明

使用和调试评估器时会产生模型调用费用，具体计费请参考MaaS模型即服务价格。

前提条件

已开通AgentArts服务。

约束与限制

表1 使用限制
限制	说明
对话类型限制	仅支持单轮对话评估，不支持多轮对话。
评估器使用限制	仅支持在离线评估任务中使用，不支持在线评估。
评分规则数量限制	最多支持添加10个评分规则。

创建评估器

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估 > 评估器 ”。
在“自定义评估器”页签中，单击右上角的“创建评估器”。

在展开的页面中配置评估器信息。具体参数配置请参考表2完成信息配置。

表2 评估器参数说明
参数		说明
基础信息	评估器名称	评估器的名称。命名要求：支持中文、英文、数字、下划线（_）中划线（-）和空格的组合，不允许以空格开头或结尾和使用其他特殊字符。长度限制：2~50个字符。
	描述（可选）	评估器的描述。长度限制：0~200个字符
	类型	选择“单轮对话”。
配置信息	评估方法	选择“自适应判定”。
	选择模型	目前仅支持deepseek-v3.2模型。可单击对模型进行配置，具体参数信息请参考表3。
	提示词	在输入框中输入自然语言规则描述，如需添加变量，可单击输入框下方的“{{变量名}}”添加变量。输入完成后，单击“预览”，系统将自动生成结构化的评估步骤。例如：评估 AI 助手回复（{{actual_output}}）相对于专家标准答案（{{reference_output}}）的正确性与完整性。从 {{reference_output}} 中提取核心要点，逐一比对 {{actual_output}} 是否准确覆盖且无事实错误。确认 {{actual_output}} 是否直接回答了用户问题（{{input}}），根据要点覆盖比例和准确性给出 0.0-1.0 的评分。图1 提示词和评估标准预览
	评分规则	定义评估器在执行过程中的评分标准。例如： 1.0分：输出在事实上完全正确、真实，且完整覆盖参考答案的核心要点与细节。语言模糊或包含主观意见可接受。 0.5分：输出在事实上基本正确，但遗漏了部分细节（非核心要点），导致回答不够完整。 0.0分：输出在事实上错误、不准确，或严重遗漏核心要点。

表3 模型配置
参数	说明
最大回复长度	用于限制模型单次生成内容的最大Token数量。设置合理的上限有助于控制输出篇幅，避免生成过长或冗余的内容。取值范围为1~8192。
生成随机数	该参数控制模型生成文本的随机性和多样性（即“自由度”）。数值较高（接近 1）：输出更具创造性和多样性，可能包含新颖的表达，但也可能偏离用户意图或产生不连贯内容。数值较低（接近 0）：输出更加确定、保守，贴近训练数据中的常见模式。取值范围为0~2。
Top P	注意：由于该参数与“生成随机数”的作用机制部分重叠，建议二者择一调整，以获得更可预测的生成效果。模型在生成过程中，从累积概率达到设定阈值（如Top P=0.9）的最小词汇子集中进行采样。这种方式会根据概率动态调整候选词范围，而非固定选择前N个词。它能在保留语言多样性的同时，提升输出的合理性与连贯性。取值范围为0~1。

配置完成后单击右下方“调试”，在弹出的页面输入测试数据，单击“开始调试”，在“调试结果”页签中查看调试结果。

如果调试结果不符合预期，请尝试优化提示词描述的具体程度后重新调试。
图2 调试评估器

图3 查看调试结果
调试确认无误后，关闭调试页面。单击“确定”，输入版本信息后发布评估器。

发布完成后，在评估器列表页面即可查看已发布的评估器。

父主题：自定义评估器

上一篇：创建模型判定评估器

下一篇：维护评估器

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问