更新时间:2026-04-16 GMT+08:00
分享

创建离线评估任务

评估任务旨在对智能体或工作流的回复质量进行多维度综合评。该过程通过评测集、评估对象与评估器的协同工作来实现:

  • 评测集:提供输入对话数据,驱动智能体或工作流生成实际回复。
  • 评估器:依据设定的评估规则,将实际回复与评测集中的预期输出进行比对。

最终生成的评分结果将量化反映智能体在准确性、安全性、流畅性等方面的综合表现。

前提条件

约束与限制

表1 使用限制

限制

说明

任务创建上限

最多支持创建10个评估任务(包含在线和离线任务)

评估器添加上限

单个评估任务中最多支持添加5个评估器。

支持评估对象

仅支持在“智能体管理”中创建的智能体,不支持评估本地接入的智能体。

评估器使用限制

评估器的可用性与评测任务类型相关,需遵循特定的适配规则。关于评估器的详细支持情况,请参见评估器支持任务详情

计费说明

当选择智能体作为评估对象时,智能体的回答会产生API调用费用或Token消耗费用,具体计费规则请参考费用说明

开通授权

为了在线评估任务能读取调用链数据和评估任务的执行结果能上报至用户的AOM中,您需要开通APM和AOM的权限。如果未开通这些权限,将无法使用评估功能。

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击右上角的“创建评估任务”。
  3. 在弹出的对话框中,单击“开通授权”。

    开通授权后,才可以创建评估任务。如果遇到"权限不足"等错误,请参见常见问题

    图1 开通授权

创建评测任务(智能体评估)

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估”,在“评估任务”页签中,单击右上角的“创建评估任务”。
  3. 选择“任务类型”“离线评估”,并参照表2完成参数配置。

    表2 评估任务参数说明

    参数

    说明

    名称

    评估任务的名称。

    命名规则:

    • 命名要求:支持中文、英文、数字、下划线(_)中划线(-)和空格的组合,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    描述(可选)

    评估任务的描述。

    长度限制:0~200个字符。

    执行类型

    设置评估任务的执行时间。

    立即执行:发起任务后,任务将立即开始执行。

    稍后执行:可以自定义评估任务的具体执行时间。

  4. 将评估对象类型设置为“智能体”。
  5. 单击“选择评估对象”,选择需评估的智能体及其版本(必须为已发布版本)。
  6. 选择一个已发布的评测集。

    • 仅支持选择最新版本的评测集。
    • 如果无可用评测集,可进行以下操作:
      • 单击“创建评测集”,跳转到评测集页面创建新的评测集。具体操作步骤请参考人工创建单轮评测集
      • 单击“去发布”,将未发布的评测集进行发布。发布后可以在评估任务中使用。具体操作步骤请参考发布评测集版本

  7. 选择评估器

    1. 单击“选择评估器”,在弹出的页面中选择使用自定义平台精选评估器。
      • 平台精选:适用于未创建评估器的场景。平台提供了一系列预置评估器可直接使用。详细信息请参考预置评估器
      • 自定义:选择自定义的评估器以及版本。
        • 单击“创建评估器”,跳转到创建评估器的界面进行创建。具体操作步骤请参考创建模型评估器
        • 单击评估器右侧的,删除已经添加的评估器。
    2. 评估器选择完成后,单击评估器左侧的下拉箭头,将评测集中的字段以及评估对象的实际输出(agent_output)与评估器的字段进行映射,确保评估器能够准确获取数据并执行评估任务。

      字段映射错误可能会影响评估器的判断,请仔细检查映射关系。

      图2 评估器字段映射

  8. 检查评估任务的配置信息,确认无误后,单击“发起任务”。任务创建后,系统将自动跳转至“评估任务详情”页面。在该页面中:

    • 查看状态:任务创建完成后状态显示为“运行中”,待评估完成后变更为“成功”。
    • 查看结果:任务执行成功后,您可以查看评估结果,具体操作请参见查看评估结果

    评估任务创建完成后,在“评估任务”列表页面查看创建的评估任务。支持通过属性筛选(评估任务名称和状态)或关键字搜索来查找评估任务。

创建评估任务(评测集评估)

当以评测集作为评估对象时,评估器的字段必须与评测集中对应的字段相匹配,否则可能导致评估任务执行失败或结果异常。

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估”, 在“评估任务”页签中,单击右上角的“创建评估任务”。
  3. 选择“任务类型”“离线评估”,并参照表2完成参数配置。
  4. 选择评估对象为评测集

    当您希望基于已上线运行的Agent产生的真实调用链数据评估时,可以将“评测集”作为评估对象。该方式支持将线上实际输入与输出回流至评测集,实现对智能体表现的复盘与量化分析。

    获取调用链数据

    1. 进入 “调用链分析” 页面,在列表中勾选需要添加的调用链数据。
    2. 单击右侧的“添加至评测集”,即可一键将数据添加进评测集中。具体方法请参考回流Trace数据至评测集

  5. 选择需要评估的评测集。
  6. 选择评估器

    1. 单击“选择评估器”,选择使用自定义平台精选评估器。
      • 平台精选:适用于未创建评估器的场景。平台提供了多种预置评估器可直接使用。详细信息请参考预置评估器
      • 自定义:若已有自定义评估器,可选择对应的评估器及其版本,支持灵活配置业务逻辑。自定义评估器请参考创建模型评估器
    2. 选择完成后,单击评估器左侧的下拉箭头,进行字段映射,确保评估器准确获取数据并执行评估。
      图3 评估器字段映射

      示例场景说明

      • 场景一:评估输出结果的正确性
        • 目标:判断Agent输出是否与标准答案一致。
        • 推荐评估器:平台精选评估器——“正确性”
        • 评测集字段要求:必须包含以下三列:
          • input:原始输入数据
          • output:实际输出数据
          • reference_output:标准参考答案
          图4 评测集数据示例
          图5 评估器字段映射示例
      • 场景二:评估输出是否具有明显的“AI味”(AI感过重)
        • 目标:检测数据内容是否过于机械、模板化,缺乏自然表达。
        • 推荐评估器:平台精选评估器——“AI味检查”
        • 评测集字段要求
          • input:原始输入数据
          • output:实际输出数据
        图6 评测集数据示例
        图7 评估器字段映射示例

  7. 检查评估任务的配置信息,确认无误后,单击“发起任务”。任务创建后,系统将自动跳转至“评估任务详情”页面。在该页面中:

    • 查看状态:任务创建完成后状态显示为“运行中”,待评估完成后变更为“成功”。
    • 查看结果:任务执行成功后,您可以查看评估结果,具体操作请参见查看评估结果

    评估任务创建完成后,在“评估任务”列表页面查看创建的评估任务。支持通过属性筛选(评估任务名称和状态)或关键字搜索来查找评估任务。

常见问题

创建评估任务时,系统提示“权限不足”怎么办?

当前登录的用户未具备创建委托的权限,请联系主账号管理员完成委托创建。具体操作请参见开通授权

图8 报错信息

创建委托时,系统提示“委托创建失败”怎么办?

当前登录的用户未具备创建委托的权限或账号下的委托数量已达到上限。

  • 权限不足:请联系主账号管理员完成委托创建。具体操作请参见开通授权
  • 委托数量已达到上限:请联系主账号管理员尝试删除不再使用的委托以释放配额。删除委托请参考删除或修改委托

相关文档