更新时间:2026-02-09 GMT+08:00
分享

创建评估器

在评估过程中,评估器扮演着裁判的角色,通过量化分析评估对象的输出来评定其效果。在开始评估任务之前,需要设置评估器。本章节将帮助你在智能体平台上创建和管理评估器。

评估器是一种工具,用于自动化或半自动化地评估Agent的表现。它依据预设的规则,对评估对象的输出进行多方面的分析,从而生成具体的评估指标和分析结论。评估器可以帮助你:

  • 量化评估结果:将Agent的表现转化为具体数值的评分。
  • 提高评估效率:通过评估任务实现自动化处理,减少人工评估的工作量,提高评估速度和一致性。

创建评估器

  1. 登录AgentArts智能体平台,在左侧导航栏“个人空间”区域,选择目标空间。
  2. 在左侧导航栏中选择“运营运维 > 评估 ”,在“评估器”页签中,单击列表上方的“创建评估器”。
  3. 在展开的页面中填写评估器的信息,请参照表1完成信息配置。

    表1 评估器参数说明

    参数

    说明

    基础信息

    评估器名称

    评估器的名称。

    命名规则:

    • 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    描述(可选)

    评估器的描述。

    长度限制:0~200个字符

    配置信息

    评估方法

    定义的评估规则。目前仅支持“模型判定”这一种评估方式。

    选择模型

    使用deepseek-v3.1-terminus模型。

    目前仅支持deepseek-v3.1-terminus模型。

    可单击对模型进行配置,具体参数信息请参考表2

    用户提示词

    输入评估器的提示词,指示评估器如何进行评估。

    提示词输入框中已预置提示词模板,可根据实际需求直接修改。

    表2 模型配置

    参数

    说明

    最大回复长度

    用于限制模型单次生成内容的最大 Token 数量。设置合理的上限有助于控制输出篇幅,避免生成过长或冗余的内容。

    取值范围为1~8192。

    生成随机数

    该参数控制模型生成文本的随机性和多样性(即“自由度”)。

    • 数值较高(接近 1):输出更具创造性和多样性,可能包含新颖的表达,但也可能偏离用户意图或产生不连贯内容。
    • 数值较低(接近 0):输出更加确定、保守,贴近训练数据中的常见模式。

    取值范围为0~1。

    Top P

    注意:

    由于该参数与“生成随机数”的作用机制部分重叠,建议二者择一调整,以获得更可预测的生成效果。

    模型在生成过程中,从累积概率达到设定阈值(如 Top P = 0.9)的最小词汇子集中进行采样。这种方式会根据概率动态调整候选词范围,而非固定选择前N个词。它能在保留语言多样性的同时,提升输出的合理性与连贯性。

    取值范围为0~1。

  4. 配置完成后单击右下方“调试”,在弹出的页面输入测试数据,单击“开始调试”查看评估效果。

    图1 调试评估器

  5. 调试确认无误后,关闭调试页面。单击“确定”,并按页面提示发布评估器。

    发布完成后,在评估器列表页面即可查看已发布的评估器。

发布评估器版本

  1. 单击需要发布版本的评估器操作列的“编辑”,然后单击右下角的“确定”
  2. “发布新版本”的弹框中输入“版本”“版本说明(可选)”信息。
  3. 单击“发布”,完成评估器版本发布。

    • 版本格式为a.b.c,其中每段数字的范围为0-999。
    • 同一个评估器发布的版本号应大于之前的历史版本号。

更多操作

评估器创建完成后,您还可以执行如表3的操作。

表3 相关操作

操作

说明

编辑评估器

  1. 在评估器列表中,找到目标评估器。单击其操作列中的 “编辑” 。
  2. 在编辑页面修改相关配置后,建议对评估器进行调试,以确保符合预期。
  3. 单击右下角的 “确定”,即可生成并发布新的评估器版本。

删除评估器

注意:

如果评估器被评估任务引用,请先删除相关的评估任务后再删除评估器。

  • 单个删除
    1. 在目标评估器的操作列中,单击 “删除”。
    2. 在弹出的 “删除评估器” 对话框中,根据界面提示输入执行信息。
    3. 单击 “确定” 完成删除。
  • 批量删除
    1. 勾选需要删除的评估器前的复选框。
    2. 单击列表左上角的 “删除” 按钮,据界面提示输入执行信息。
    3. 单击 “确定” 完成删除。

自定义显示列信息

单击筛选框右侧的,可以自定义评估器列表的显示列。

图2 自定义显示列信息

相关文档

评估器创建后,可以在评估任务中使用,具体操作请参考创建评估任务

相关文档