文档首页/ 智果（AgentArts）智能体平台/ 智能体运营运维/ 智能体评估/ 评估器/ 自定义评估器/ 创建模型判定评估器

更新时间：2026-07-17 GMT+08:00

创建模型判定评估器

费用说明

使用和调试评估器时会产生模型调用费用，具体计费请参考MaaS模型即服务价格。

前提条件

已开通AgentArts服务。
已配置模型鉴权，配置模型鉴权请参考设置模型鉴权。

创建单轮对话评估器

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估 > 评估器 ”。
在“自定义评估器”页签中，单击右上角的“创建评估器”。

在展开的页面中配置评估器信息。具体参数配置请参考表1完成信息配置。

表1 评估器参数说明
参数		说明
基础信息	评估器名称	评估器的名称。命名规则：命名要求：支持中文、英文、数字、下划线（_）中划线（-）和空格的组合，不允许以空格开头或结尾和使用其他特殊字符。长度限制：2~50个字符。
	描述（可选）	评估器的描述。长度限制：0~200个字符
	类型	选择“单轮对话”。
配置信息	评估方法	选择“模型判定”。
	选择模型	目前仅支持deepseek-v3.2模型。单击模型名称后的“配置”图标，可对模型参数进行配置。具体参数信息请参考表2。
	用户提示词	输入评估器的提示词，指示评估器如何进行评估。单击提示词输入框下方的“{{变量名}}”可以在提示词中添加变量。单击输入框右侧的“选择模板”图标，从平台预置的提示词模板列表中选取。选择后，可以根据实际需求直接编辑模板内容。建议：请根据您的评估目标选择匹配的模板（例如：评估回复准确性可选择“准确性”类模板，评估内容安全性可选择“安全性”类模板），选中后可根据实际业务需求直接编辑模板内容。图1 选择提示词模板

表2 模型配置
参数	说明
最大回复长度	用于限制模型单次生成内容的最大Token数量。设置合理的上限有助于控制输出篇幅，避免生成过长或冗余的内容。取值范围为1~8192。
生成随机数	该参数控制模型生成文本的随机性和多样性（即“自由度”）。数值较高（接近 1）：输出更具创造性和多样性，可能包含新颖的表达，但也可能偏离用户意图或产生不连贯内容。数值较低（接近 0）：输出更加确定、保守，贴近训练数据中的常见模式。取值范围为0~2。
Top P	注意：由于该参数与“生成随机数”的作用机制部分重叠，建议二者择一调整，以获得更可预测的生成效果。模型在生成过程中，从累积概率达到设定阈值（如Top P=0.9）的最小词汇子集中进行采样。这种方式会根据概率动态调整候选词范围，而非固定选择前N个词。它能在保留语言多样性的同时，提升输出的合理性与连贯性。取值范围为0~1。

配置完成后单击右下方“调试”，在弹出的页面输入测试数据，单击“开始调试”查看评估效果。

图2 调试评估器

图3 查看调试结果
调试确认无误后，关闭调试页面。单击“确定”，输入版本信息后发布评估器。

发布完成后，在评估器列表页面即可查看已发布的评估器。

创建多轮对话评估器

建议将轨迹类的多轮对话评估器用于在线评估任务。由于轨迹数据手动构造难度较大，在线评估时系统将自动从调用链中提取变量值，无需手动构造。

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估 > 评估器 ”。
在“自定义评估器”页签中，单击右上角的“创建评估器”。

在展开的页面中配置评估器信息。具体参数配置请参考表3完成信息配置。

表3 评估器参数说明
参数		说明
基础信息	评估器名称	评估器的名称。命名规则：命名要求：支持中文、英文、数字、下划线（_）中划线（-）和空格的组合，不允许以空格开头或结尾和使用其他特殊字符。长度限制：2~50个字符。
	描述（可选）	评估器的描述。长度限制：0~200个字符
	类型	选择“多轮对话”。选择后，需进一步选择评估的内容类型：文本或轨迹。
配置信息	评估方法	选择“模型判定”。
	选择模型	目前仅支持deepseek-v3.2模型。可单击对模型进行配置，具体参数信息请参考表2。
	用户提示词	输入评估器的提示词，指示评估器如何进行评估。单击提示词输入框下方的预置变量名称，可以在提示词中添加变量。您也可以直接选择预置的多轮对话提示词模板，并根据实际业务需求对模板内容进行修改。注意：变量使用限制：评估文本时：提示词中的变量名称必须为turns，不支持其他自定义变量名。评估轨迹时：提示词中必须包含系统预置的轨迹类变量（至少选择其中一个），不支持使用自定义变量名。

配置完成后单击右下方“调试”，在弹出的页面输入测试数据，单击“开始调试”查看评估效果。

图4 调试评估器

图5 查看调试结果
调试确认无误后，关闭调试页面。单击“确定”，输入版本信息后发布评估器。

发布完成后，在评估器列表页面即可查看已发布的评估器。

父主题：自定义评估器

上一篇：自定义评估器

下一篇：创建自适应判定评估器

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问