文档首页/ 智能体开发平台 AgentArts/ 用户指南/ 智能体评估/ 评估器/ 自定义评估器

更新时间：2026-03-20 GMT+08:00

查看PDF

自定义评估器

前提条件

已开通AgentArts服务。
登录用户为空间所有者、空间管理员、开发工程师、运维工程师，详细信息请参考管理团队空间成员。

创建评估器

登录AgentArts智能体开发平台，在左侧导航栏“个人空间”区域，选择目标空间。
在左侧导航栏中选择“运营运维 > 评估 ”。
在“自定义评估器”页签中，单击右上角的“创建评估器”。

在展开的页面中填写评估器的信息，请参照表1完成信息配置。

表1 评估器参数说明
参数		说明
基础信息	评估器名称	评估器的名称。命名规则：命名要求：支持中文、英文、数字、下划线（_）中划线（-）和空格的组合，不允许以空格开头或结尾和使用其他特殊字符。长度限制：2~50个字符。
基础信息	描述（可选）	评估器的描述。长度限制：0~200个字符
配置信息	评估方法	定义的评估规则。目前仅支持“模型判定”这一种评估方式。
	选择模型	目前仅支持deepseek-v3.1-terminus模型。可单击对模型进行配置，具体参数信息请参考表2。
	用户提示词	输入评估器的提示词，指示评估器如何进行评估。单击，从平台预置的提示词模板列表中选取。选择后，可以根据实际需求直接编辑模板内容。图1 选择提示词模板

表2 模型配置
参数	说明
最大回复长度	用于限制模型单次生成内容的最大Token数量。设置合理的上限有助于控制输出篇幅，避免生成过长或冗余的内容。取值范围为1~8192。
生成随机数	该参数控制模型生成文本的随机性和多样性（即“自由度”）。数值较高（接近 1）：输出更具创造性和多样性，可能包含新颖的表达，但也可能偏离用户意图或产生不连贯内容。数值较低（接近 0）：输出更加确定、保守，贴近训练数据中的常见模式。取值范围为0~2。
Top P	注意：由于该参数与“生成随机数”的作用机制部分重叠，建议二者择一调整，以获得更可预测的生成效果。模型在生成过程中，从累积概率达到设定阈值（如Top P=0.9）的最小词汇子集中进行采样。这种方式会根据概率动态调整候选词范围，而非固定选择前N个词。它能在保留语言多样性的同时，提升输出的合理性与连贯性。取值范围为0~1。

配置完成后单击右下方“调试”，在弹出的页面输入测试数据，单击“开始调试”查看评估效果。

图2 调试评估器
调试确认无误后，关闭调试页面。单击“确定”，输入版本信息后发布评估器。

发布完成后，在评估器列表页面即可查看已发布的评估器。

更多操作

评估器创建完成后，您还可以执行如表3的操作。

表3 相关操作
操作	说明
发布评估器版本	单击需要发布版本的评估器“操作”列的“编辑”，然后单击右下角的“确定”。在“提交新版本”的对话框中输入“版本”和“版本说明（可选）”信息。单击“确定”，完成评估器版本发布。说明：版本格式为a.b.c，其中每段数字的范围为0-999。同一个评估器发布的版本号应大于之前的历史版本号。
查看历史评估器版本	单击评估器名称，进入评估器详情页面。单击右上角的，在版本记录列表中，单击目标历史版本，即可切换并查看该版本的详细内容。在版本记录列表中，支持对历史版本进行还原和删除操作：还原版本：将鼠标悬浮在目标历史版本上，单击“还原版本”，该历史版本将覆盖当前最新版本，使其成为新的当前版本。删除版本：将鼠标悬浮在目标历史版本上，单击“删除版本”，即可删除该历史版本。说明：不支持修改历史版本的评估器数据。不支持删除在评估任务中引用的评估器版本。
编辑评估器	在评估器列表中，找到目标评估器。单击其操作列中的 “编辑” 。在编辑页面修改相关配置后，建议对评估器进行调试，以确保符合预期。单击右下角的 “确定”并输入版本信息，即可生成并发布新的评估器版本。
删除评估器	注意：如果评估器被评估任务引用，请先删除相关的评估任务后再删除评估器。单个删除在目标评估器的操作列中，单击 “删除”。在弹出的 “删除评估器” 对话框中，根据界面提示输入执行信息。单击 “确定” 完成删除。批量删除勾选需要删除的评估器前的复选框。单击右上角的 “删除” ，据界面提示输入执行信息。单击 “确定” 完成删除。

父主题：评估器

上一篇：评估器介绍

下一篇：预置评估器

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问