创建离线评估任务

评估任务旨在对智能体或工作流的回复质量进行多维度综合评估。该过程通过评测集、评估对象与评估器的协同工作来实现：

评测集：提供输入对话数据，驱动智能体或工作流生成实际回复。
评估器：依据设定的评估规则，将实际回复与评测集中的预期输出进行比对。

最终生成的评分结果将量化反映智能体在准确性、安全性、流畅性等方面的综合表现。

如果需评估特定智能体版本的质量，请选择创建评估任务（智能体评估）；如果需基于线上真实回流数据进行复盘，请选择创建评估任务（评测集评估）。

费用说明

基础版创建评估任务10次后，无法继续创建新的评估任务。

前提条件

已开通AgentArts服务。

创建并发布评测集，详细信息请参考评测集。
创建并发布评估器，详细信息请参考创建模型判定评估器。
已创建并发布智能体。
- 创建智能体请参考创建单智能体应用、创建多智能体应用和搭建工作流。
- 发布智能体请参考发布应用、发布多智能体应用为API和发布工作流。
已开启数据上报开关。开启数据上报请参考开启数据上报。
已开通和授权APM和AOM，授权操作请参考开通授权。

约束与限制

表1 使用限制
限制	说明
任务创建上限	最多支持创建10个评估任务（包含在线和离线任务）
评估器添加上限	单个评估任务中最多支持添加5个评估器。
智能体评估支持范围	仅支持在“智能体管理”中创建的智能体，不支持评估本地接入的智能体。
评估器使用限制	评估器的可用性与评估任务类型相关，需遵循特定的适配规则。关于评估器的详细支持情况，请参见评估器支持任务详情。

开通授权

为了评估任务能读取调用链数据和评估任务的执行结果能上报至用户的AOM中，您需要开通APM和AOM的权限。如果未开通这些权限，将无法使用评估功能。

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签中，单击右上角的“创建评估任务”。
在弹出的对话框中，单击“开通授权”。

开通授权后，才可以创建评估任务。如果遇到"权限不足"等错误，请参见常见问题。

图1 开通授权

创建评估任务（智能体评估）

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签中，单击右上角的“创建评估任务”。

选择“任务类型”为“离线评估”，并参照表2完成参数配置。

表2 评估任务参数说明
参数	说明
名称	评估任务的名称。命名要求：支持中文、英文、数字、下划线（_）中划线（-）和空格的组合，不允许以空格开头或结尾和使用其他特殊字符。长度限制：2~50个字符。
描述（可选）	评估任务的描述。长度限制：0~200个字符。
执行类型	设置评估任务的执行时间。立即执行：发起任务后，任务将立即开始执行。稍后执行：可以自定义评估任务的具体执行时间。
智能分析	是否生成智能分析报告。

将评估对象设置为智能体。
单击“选择评估对象”，选择需评估的智能体及其版本（必须为已发布版本）。
选择一个已发布的评测集。
- 仅支持选择最新版本的评测集。
- 如果无可用评测集，可进行以下操作：
  - 单击“创建评测集”，跳转到评测集页面创建新的评测集。具体操作步骤请参考人工创建单轮评测集。
  - 单击“去发布”，将未发布的评测集进行发布。发布后可以在评估任务中使用。具体操作步骤请参考发布评测集版本。
选择评估器。
1. 单击“选择评估器”，在弹出的页面中选择使用自定义或平台精选评估器。
  如果您是初次使用或无特殊业务逻辑需求，推荐优先使用“平台精选”评估器。
  - 平台精选：适用于未创建评估器的场景。平台提供了一系列预置评估器可直接使用。详细信息请参考预置评估器。
  - 自定义：选择自定义的评估器以及版本。
    - 单击“创建评估器”，跳转到创建评估器的界面进行创建。具体操作步骤请参考创建模型判定评估器。
    - 单击评估器右侧的，移除该评估器。
2. 评估器选择完成后，单击评估器左侧的下拉箭头，将评测集中的字段以及评估对象的实际输出(agent_output)与评估器的字段进行映射，确保评估器能够准确获取数据并执行评估任务。
  
  字段映射错误将导致评估失败或结果异常，请仔细检查映射关系。
  
  例如：确保评测集的input映射至评估器的input，智能体实际输出映射至评估器的actual_output。
  
  图2 评估器字段映射
检查评估任务的配置信息，确认无误后，单击“发起任务”。任务创建后，系统将自动跳转至“评估任务详情”页面。在该页面中：
- 查看状态：任务创建完成后状态显示为“运行中”，待评估完成后变更为“成功”。
- 查看结果：任务执行成功后，您可以查看评估结果，具体操作请参见查看评估结果。
评估任务创建完成后，在“评估任务”列表页面查看创建的评估任务。支持通过属性筛选或关键字搜索来查找评估任务。

创建评估任务（评测集评估）

当以评测集作为评估对象时，评估器的字段必须与评测集中对应的字段相匹配，否则可能导致评估任务执行失败或结果异常。

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签中，单击右上角的“创建评估任务”。
选择“任务类型”为“离线评估”，并参照表2完成参数配置。
将评估对象设置为评测集。

当您希望基于已上线运行的Agent产生的真实调用链数据评估时，可以将“评测集”作为评估对象。该方式支持将线上实际输入与输出回流至评测集，实现对智能体表现的复盘与量化分析。

获取调用链数据：
1. 进入 “调用链分析” 页面，在列表中勾选需要添加的调用链数据。
2. 单击右侧的“添加至评测集”，即可一键将数据添加进评测集中。具体方法请参考回流Trace数据至评测集。
选择需要评估的评测集。
选择评估器。
1. 单击“选择评估器”，选择使用自定义或平台精选评估器。
  如果您是初次使用或无特殊业务逻辑需求，推荐优先使用“平台精选”评估器。
  - 平台精选：适用于未创建评估器的场景。平台提供了多种预置评估器可直接使用。详细信息请参考预置评估器。
  - 自定义：如果已有自定义评估器，可选择对应的评估器及其版本，支持灵活配置业务逻辑。自定义评估器请参考创建模型判定评估器。
2. 选择完成后，单击评估器左侧的下拉箭头，进行字段映射，确保评估器准确获取数据并执行评估。
  图3 评估器字段映射
  
  示例场景说明
  - 场景一：评估输出结果的正确性
    - 目标：判断智能体的输出是否与标准答案一致。
    - 推荐评估器：平台精选评估器——“正确性”
    - 评测集字段要求：必须包含以下三列：
      - input：原始输入数据
      - output：实际输出数据
      - reference_output：标准参考答案
      图4 评测集数据示例
      
      图5 评估器字段映射示例
  - 场景二：评估输出是否具有明显的“AI味”（AI感过重）
    - 目标：检测数据内容是否过于机械、模板化，缺乏自然表达。
    - 推荐评估器：平台精选评估器——“AI味检查”
    - 评测集字段要求：
      - input：原始输入数据
      - output：实际输出数据
    图6 评测集数据示例
    
    图7 评估器字段映射示例
检查评估任务的配置信息，确认无误后，单击“发起任务”。任务创建后，系统将自动跳转至“评估任务详情”页面。在该页面中：
- 查看状态：任务创建完成后状态显示为“运行中”，待评估完成后变更为“成功”。
- 查看结果：任务执行成功后，您可以查看评估结果，具体操作请参见查看评估结果。
评估任务创建完成后，在“评估任务”列表页面查看创建的评估任务。支持通过属性筛选或关键字搜索来查找评估任务。