更新时间:2026-04-15 GMT+08:00
分享

回流评估结果至评测集

支持将评估任务产出的结果回流至评测集。通过配置回流规则,可以将得分较高或较低的数据进行分类回流,帮助您利用线上真实数据构建“高质量数据集”与“问题数据集”,从而实现评测集的持续迭代与优化。

通过回流线上真实数据,可以显著提升评测质量,具体体现在以下几个方面:

  • 构建“黄金评测集”:通过筛选高分的线上真实对话,沉淀出一套标准的“黄金评测集”。该集合代表了真实业务场景下的理想交互水平,能够作为新版本发布前的验证,确保评估标准客观、权威,防止模型迭代带来的效果衰退。
  • 建立“Badcase问题库”:归档效果欠佳的Badcase,形成专项问题库。,助力团队快速识别缺陷、修复漏洞,从而在后续迭代中显著提升智能体的能力。

步骤一:选择评估结果

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估”,选择“评估任务”页签。
  3. 单击目标任务名称,进入评估任务详情页面。
  4. 查看评估结果,并勾选需要回流至评测集的数据,单击右侧的“导出”
    • 导出全部数据至评测集:无需勾选具体条目,直接导出当前任务下的所有数据。
    • 导出已选中数据至评测集:仅导出勾选的数据条目。
      图1 导入至评测集

步骤二:配置回流规则

“导出评测集”的弹框中,配置导出的规则。根据业务需求选择目标评测集类型:
  • 新建评测集:创建一个全新的评测集并添加数据,参数说明请参见表3 新建评测集
  • 已有评测集:将数据添加至已存在的评测集中,参数说明请参见表4 已有评测集

    数据导出到评测集时,请遵循评测集的约束与限制,具体说明请参见约束与限制

    图2 创建评测集配置示例
    表1 创建评测集

    参数

    说明

    示例

    目标评测集

    选择数据添加到已有评测集或创建评测集。

    选择“创建评测集”

    评测集名称

    新建评测集的名称。

    科学知识

    描述

    评测集的描述。

    数据用于评估科学知识类智能体。

    评测集版本

    新创建的评测集是发布状态还是草稿状态。

    • 自动发布新版本:评测集的状态为已发布,可以直接在评估任务中使用。
    • 保持草稿状态:评测集的状态为草稿态,需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本

    自动发布新版本

    字段映射

    设置智能合成的数据字段和评测集字段及映射关系。

    目标字段:设置将评估结果的数据字段回流到评测集具体哪一列。

    必填:设置评测集的列是否为必填项。

    注意:

    不支持多个字段回流到评测集同一列。如果选择回流到已有列,已有列的数据类型不支持修改,数据类型不一致可能导致回流失败

    字段映射请参考图2 创建评测集配置示例

    图3 已有评测集配置示例
    表2 已有评测集

    参数

    说明

    示例

    目标评测集

    选择数据添加到已有评测集或创建评测集。

    选择“已有评测集”

    目标评测集名称

    选择将智能合成数据具体要添加到的目标评测集。

    科学知识

    目标评测集列

    展示已选择的目标评测集中已有的列名。

    agentinput、reference_output

    添加策略

    数据导入评测集的方式,支持追加数据或全面覆盖。

    • 追加数据在评测集已有数据下新增智能合成数据。应确保导入选择的数据后,评测集的数据不超过上限。
    • 全量覆盖:清除评测集已有数据后,新增数据。

    追加数据

    评测集版本

    导入数据后评测集是发布状态还是草稿状态。

    • 自动发布新版本:评测集的状态为已发布,可以直接在评估任务中使用。
    • 保持草稿状态:评测集的状态为草稿态,需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本

    自动发布新版本

    字段映射

    设置评估结果数据字段与评测集字段之间的映射关系,实现数据的回流。

    目标字段:评测集中用于接收评估结果数据的列。配置时,需指定评估结果数据回流至评测集的具体列名。

    注意:

    配置约束与说明:

    • 不支持将多个评估结果字段映射至评测集的同一列(即不能“多对一”映射)。
    • 如果选择回流至评测集的已有列,该列的数据类型不支持修改。请确保源数据类型与目标列一致,类型冲突将导致回流失败。
    • 目标评测集中的所有必填字段均必须完成映射,否则无法导出至评测集。

    字段映射请参考图3

步骤三:导入至评测集

  1. 配置完成,确认信息无误后,单击“确定”
  2. 导入成功后,单击右上角提示框中的“查看详情”,在跳转的评测集详情页面中查看已添加的数据。
    图4 查看详情

相关文档