更新时间:2026-06-16 GMT+08:00
分享

创建模型判定评估器

费用说明

使用和调试评估器时会产生模型调用费用,具体计费请参考MaaS模型即服务价格

前提条件

创建单轮对话评估器

  1. 登录AgentArts智能体平台
  2. 在左侧导航栏中选择“运营运维 > 评估 > 评估器 ”。
  3. 在“自定义评估器”页签中,单击右上角的“创建评估器”。
  4. 在展开的页面中配置评估器信息。具体参数配置请参考表1完成信息配置。

    表1 评估器参数说明

    参数

    说明

    基础信息

    评估器名称

    评估器的名称。

    命名规则:

    • 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    描述(可选)

    评估器的描述。

    长度限制:0~200个字符

    类型

    选择“单轮对话”

    配置信息

    评估方法

    选择“模型判定”

    选择模型

    目前仅支持deepseek-v3.2模型。

    单击模型名称后的“配置”图标,可对模型参数进行配置。具体参数信息请参考表2

    用户提示词

    输入评估器的提示词,指示评估器如何进行评估。单击提示词输入框下方的“{{变量名}}”可以在提示词中添加变量。

    单击输入框右侧的“选择模板”图标,从平台预置的提示词模板列表中选取。选择后,可以根据实际需求直接编辑模板内容。

    建议:请根据您的评估目标选择匹配的模板(例如:评估回复准确性可选择“准确性”类模板,评估内容安全性可选择“安全性”类模板),选中后可根据实际业务需求直接编辑模板内容。

    图1 选择提示词模板
    表2 模型配置

    参数

    说明

    最大回复长度

    用于限制模型单次生成内容的最大Token数量。设置合理的上限有助于控制输出篇幅,避免生成过长或冗余的内容。

    取值范围为1~8192。

    生成随机数

    该参数控制模型生成文本的随机性和多样性(即“自由度”)。

    • 数值较高(接近 1):输出更具创造性和多样性,可能包含新颖的表达,但也可能偏离用户意图或产生不连贯内容。
    • 数值较低(接近 0):输出更加确定、保守,贴近训练数据中的常见模式。

    取值范围为0~2。

    Top P

    注意:

    由于该参数与“生成随机数”的作用机制部分重叠,建议二者择一调整,以获得更可预测的生成效果。

    模型在生成过程中,从累积概率达到设定阈值(如Top P=0.9)的最小词汇子集中进行采样。这种方式会根据概率动态调整候选词范围,而非固定选择前N个词。它能在保留语言多样性的同时,提升输出的合理性与连贯性。

    取值范围为0~1。

  5. 配置完成后单击右下方“调试”,在弹出的页面输入测试数据,单击“开始调试”查看评估效果。

    图2 调试评估器
    图3 查看调试结果

  6. 调试确认无误后,关闭调试页面。单击“确定”,输入版本信息后发布评估器。

    发布完成后,在评估器列表页面即可查看已发布的评估器。

创建多轮对话评估器

建议将轨迹类的多轮对话评估器用于在线评估任务。由于轨迹数据手动构造难度较大,在线评估时系统将自动从调用链中提取变量值,无需手动构造。

  1. 登录AgentArts智能体平台
  2. 在左侧导航栏中选择“运营运维 > 评估 > 评估器 ”。
  3. 在“自定义评估器”页签中,单击右上角的“创建评估器”。
  4. 在展开的页面中配置评估器信息。具体参数配置请参考表3完成信息配置。

    表3 评估器参数说明

    参数

    说明

    基础信息

    评估器名称

    评估器的名称。

    命名规则:

    • 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    描述(可选)

    评估器的描述。

    长度限制:0~200个字符

    类型

    选择“多轮对话”。选择后,需进一步选择评估的内容类型:文本轨迹

    配置信息

    评估方法

    选择“模型判定”

    选择模型

    目前仅支持deepseek-v3.2模型。

    可单击对模型进行配置,具体参数信息请参考表2

    用户提示词

    输入评估器的提示词,指示评估器如何进行评估。单击提示词输入框下方的预置变量名称,可以在提示词中添加变量。

    您也可以直接选择预置的多轮对话提示词模板,并根据实际业务需求对模板内容进行修改。

    注意:

    变量使用限制:

    • 评估文本时:提示词中的变量名称必须为turns,不支持其他自定义变量名。
    • 评估轨迹时:提示词中必须包含系统预置的轨迹类变量(至少选择其中一个),不支持使用自定义变量名。

  5. 配置完成后单击右下方“调试”,在弹出的页面输入测试数据,单击“开始调试”查看评估效果。

    图4 调试评估器
    图5 查看调试结果

  6. 调试确认无误后,关闭调试页面。单击“确定”,输入版本信息后发布评估器。

    发布完成后,在评估器列表页面即可查看已发布的评估器。

相关文档