回流评估结果至评测集

支持将评估任务产出的结果回流至评测集。通过配置回流规则，可以将得分较高或较低的数据进行分类回流，帮助您利用线上真实数据构建“高质量数据集”与“问题数据集”，从而实现评测集的持续迭代与优化。

通过回流线上真实数据，可以显著提升评测质量，具体体现在以下几个方面：

构建“黄金评测集”：通过筛选高分的线上真实对话，沉淀出一套标准的“黄金评测集”。该集合代表了真实业务场景下的理想交互水平，能够作为新版本发布前的验证，确保评估标准客观、权威，防止模型迭代带来的效果衰退。
建立“Badcase问题库”：归档效果欠佳的Badcase，形成专项问题库。助力团队快速识别缺陷、修复漏洞，从而在后续迭代中显著提升智能体的能力。

步骤一：选择评估结果

登录AgentArts智能体平台。
在左侧导航栏中选择“运营运维 > 评估”，选择“评估任务”页签。
单击目标任务名称，进入评估任务详情页面。
查看评估结果，并勾选需要回流至评测集的数据，单击右侧的“导出”。
- 导出全部数据至评测集：无需勾选具体条目，直接导出当前任务下的所有数据。
- 导出已选中数据至评测集：仅导出勾选的数据条目。
  图1 导出至评测集

步骤二：配置回流规则

在“导出评测集”的弹框中，配置导出的规则。根据业务需求选择目标评测集类型：

如果希望独立测试或保留优质数据，建议选择“创建评测集”；如果希望补充现有评测集的样本多样性，可选择已有评测集。

创建评测集：创建一个全新的评测集并添加数据，参数说明请参见表1。

已有评测集：将数据添加至已存在的评测集中，参数说明请参见表2。

数据导出到评测集时，请遵循评测集的约束与限制，具体说明请参见约束与限制。

图2 创建评测集配置示例

表1 创建评测集
参数	说明	示例
目标评测集	选择“创建评测集”，新建一个目标评测集用于存放回流数据。	选择“创建评测集”
评测集名称	新建评测集的名称。命名要求：可以包含中文、英文、数字、下划线（_）、中划线（-）和空格，不允许以空格开头或结尾，且不允许使用其他特殊字符。长度限制：2~50个字符。	科学知识
描述	评测集的描述。	数据用于评估科学知识类智能体。
评测集版本	新创建的评测集是发布状态还是草稿状态。自动发布新版本：评测集的状态为已发布，可以直接在评估任务中使用。保持草稿状态：评测集的状态为修改未提交状态，需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本。	自动发布新版本
字段映射	设置评估结果数据字段与评测集字段的映射关系。目标字段：设置将评估结果的数据字段回流到评测集指定列。必填：设置评测集的列是否为必填项。注意：不支持多个字段回流到评测集同一列。如果选择回流到已有列，已有列的数据类型不支持修改，数据类型不一致可能导致回流失败。如遇数据类型冲突，请参考常见问题进行排查。	字段映射请参考图2 创建评测集配置示例

图3 已有评测集配置示例

表2 已有评测集
参数	说明	示例
目标评测集	选择“已有评测集”，将数据添加到现有的评测集中。	选择“已有评测集”
目标评测集名称	选择接收回流数据的目标评测集。	科学知识
目标评测集列	展示已选择的目标评测集中已有的列名。	agentinput、reference_output
添加策略	数据回流至评测集的方式，支持追加数据或全量覆盖。追加数据：在评测集已有数据下新增评估结果数据。应确保回流后的数据总量不超过评测集上限。全量覆盖：清除目标评测集当前版本的所有已有数据后，新增评估结果数据。如需恢复，可通过评测集的“版本历史”功能还原。	追加数据
评测集版本	数据回流后评测集是发布状态还是草稿状态。自动发布新版本：评测集的状态为已发布，可以直接在评估任务中使用。保持草稿状态：评测集的状态为修改未提交状态，需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本。	自动发布新版本
字段映射	设置评估结果数据字段与评测集字段之间的映射关系，实现数据的回流。目标字段：评测集中用于接收评估结果数据的指定列。注意：配置约束与说明：不支持将多个评估结果字段映射至评测集的同一列（即不能“多对一”映射）。如果选择回流至评测集的已有列，该列的数据类型不支持修改。请确保源数据类型与目标列一致，类型冲突将导致回流失败。目标评测集中的所有必填字段均必须完成映射，否则无法导出至评测集。	字段映射请参考图3