更新时间:2026-02-27 GMT+08:00
分享

创建评估任务

评估任务旨在评估智能体或工作流的回复准确率。这个过程通过将评测集、评估对象和评估器结合来完成。评测集提供输入的对话数据,让智能体或工作流进行回答。评估器则根据设定的评估规则将评测集中的预期输出,与智能体或工作流的实际回复进行对比,生成评分结果,从而反映其准确率和整体表现。

前提条件

约束与限制

  • 最多支持创建10个评估任务。
  • 单个评估任务中最多支持添加5个评估器。

创建委托

同意委托执行智能体和工作流的权限,用于执行评估任务。

  1. 登录AgentArts智能体平台,在左侧导航栏“个人空间”区域,选择目标空间。
  2. 在左侧导航栏中选择“运营运维 > 评估”, 在“评估任务”页签中,单击右上角的“创建评估任务”。
  3. 在对话框中,单击“确定”。

    同意授权后,才可以创建评估任务。

    创建委托过程中如果出现错误,请参照常见问题进行排查和解决。

    图1 同意授权

创建评估任务

  1. 登录AgentArts智能体平台,在左侧导航栏“个人空间”区域,选择目标空间。
  2. 在左侧导航栏中选择“运营运维 > 评估”, 在“评估任务”页签中,单击右上角的“创建评估任务”。
  3. 设置评估任务的基础信息,请参照表1完成参数配置。

    表1 评估任务参数说明

    参数

    说明

    名称

    评估任务的名称。

    命名规则:

    • 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~64个字符。

    描述(可选)

    评估任务的描述。

    长度限制:0~200个字符。

    高级设置

    执行类型

    设置评估任务的执行时间。

    立即执行:发起任务后,任务将立即开始执行。

    稍后执行:可以自定义评估任务的具体执行时间。

    说明:

    自定义评估任务时,只能选择当前时间之后的时间。这意味着不能将任务设置为在过去的时间点执行。请确保选择一个未来的时间,以便任务能够正确执行。

  4. 选择评估对象

    • 智能体:选择需要评估的智能体及其版本。
      图2 选择智能体及版本
    • 评测集:将评测集作为评估对象。

      如果将评测集作为评估对象,在设置评估器的字段映射时,将评测集的output指定为实际输出。这种方式创建的评估任务适用于将调用链数据回流评测集的场景,可以针对线上已经产生的Agent实际输出进行评估。

      获取调用链数据:

      1. 进入 “调用链管理” 页签,在列表中找到需要添加的调用链数据记录。
      2. 单击调用链数据,在调用链详情页面单击 “输入” 或 “输出”右侧的“复制”。
      3. 将复制的数据粘贴至评测集的对应字段中。
      图3 获取调用链数据

  5. 选择评测集

    选择已发布的评测集版本。仅支持选择最新版本的评测集。

    • 单击“创建评测集”,跳转到评测集页面创建新的评测集。具体操作步骤请参考创建评测集
    • 单击“去发布”,将未发布的评测集进行发布。发布后可以在评估任务中使用。具体操作步骤请参考发布评测集版本

  6. 选择评估器

    在选择评估器下拉框中选择使用平台精选自定义评估器。

    • 平台精选:选择平台预置的评估器。可对Agent回答的正确性、相关性进行评估。
    • 自定义:选择自定义的评估器以及版本。
      • 单击“创建评估器”,跳转到创建评估器的界面进行创建。具体操作步骤请参考创建评估器
      • 单击评估器右侧的,删除已经添加的评估器。

      自定义评估器选择完成后,会显示出评估中预设的输入、输出参数信息,用户可以按照评估任务要求关联对应的评测集和评估对象。

      图4 设置自定义评估器的评测集和评估对象

  7. 检查评估任务的配置信息,确保设置无误之后,单击“发起任务”

    评估任务创建完成后,在“评估任务”页面查看创建的评估任务。还可以通过属性筛选(评估任务名称和状态)或关键字搜索来查找评估任务。

更多操作

评估任务创建完成后,您还可以执行如表2的操作。
表2 相关操作

操作

说明

删除评估任务

  1. 在左侧导航栏中选择“运营运维 > 评估”, 在“评估任务”页签中,找到需要删除的评估任务。
  2. 在操作列中,单击“删除”。
  3. 在弹出的“删除”对话框中,根据界面提示输入执行信息,然后单击“确定”删除评估任务。

常见问题

创建评估任务时,系统提示“权限不足”怎么办?

当前登录的用户未具备创建委托的权限,请联系主账号管理员完成委托创建。具体操作请参见创建委托

图5 报错信息

创建委托时,系统提示“委托创建失败”怎么办?

当前登录的用户未具备创建委托的权限或账号下的委托数量已达到上限。

  • 权限不足:请联系主账号管理员完成委托创建。具体操作请参见创建委托
  • 委托数量已达到上限:请联系主账号管理员尝试删除不再使用的委托以释放配额。删除委托请参考删除或修改委托
图6 报错信息

相关文档