评估结果回流
评估结果回流功能允许您将评估任务的执行结果回流到评测集中,实现评估数据的沉淀和复用。通过字段映射机制,确保数据结构的一致性和完整性。
适用场景:
- 数据迭代:将表现优秀的智能体回复沉淀为新的标准答案,扩充评测集。
- 问题归档:将评分较低的问答对保存回评测集,便于后续针对性优化。
- 结果留存:将评估结果作为评测集的扩展,用于后续分析或对比。
例如:在完成一个智能体评估后,您可以将评分结果为1分或者接近1分的优质问答对回流到评测集中,作为新的训练数据;同时将评分低于0.5分的问答对回流,用于针对性的优化。
步骤一:选择评估结果
- 登录AgentArts智能体开发平台。
- 在左侧导航栏中选择“运营运维 > 评估”,选择“评估任务”页签。
- 单击目标任务名称,进入评估任务详情页面。
- 查看评估结果,并勾选需要回流至评测集的数据,单击右侧的“导出”。
- 导出全部数据至评测集:无需勾选具体条目,直接导出当前任务下的所有数据。
- 导出已选中数据至评测集:仅导出勾选的数据条目。
图1 导入至评测集
步骤二:配置回流规则
- 新建评测集:创建一个全新的评测集并添加数据,参数说明请参见表3 新建评测集。
- 已有评测集:将数据添加至已存在的评测集中,参数说明请参见表4 已有评测集。
数据导出到评测集时,请遵循评测集的约束与限制,具体说明请参见约束与限制。
图2 创建评测集配置示例
表1 创建评测集 参数
说明
示例
目标评测集
选择数据添加到已有评测集或创建评测集。
选择“创建评测集”
评测集名称
新建评测集的名称。
科学知识
描述
评测集的描述。
数据用于评估科学知识类智能体。
评测集版本
新创建的评测集是发布状态还是草稿状态。
- 自动发布新版本:评测集的状态为已发布,可以直接在评估任务中使用。
- 保持草稿状态:评测集的状态为草稿态,需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本。
自动发布新版本
字段映射
设置智能合成的数据字段和评测集字段及映射关系。
目标字段:设置将评估结果的数据字段回流到评测集具体哪一列。
必填:设置评测集的列是否为必填项。
注意:不支持多个字段回流到评测集同一列。如果选择回流到已有列,已有列的数据类型不支持修改,数据类型不一致可能导致回流失败。
字段映射请参考图2 创建评测集配置示例
表2 已有评测集 参数
说明
示例
目标评测集
选择数据添加到已有评测集或创建评测集。
选择“已有评测集”
目标评测集名称
选择将智能合成数据具体要添加到的目标评测集。
科学知识
目标评测集列
展示已选择的目标评测集中已有的列名。
agentinput、reference_output
添加策略
数据导入评测集的方式,支持追加数据或全面覆盖。
- 追加数据:在评测集已有数据下新增智能合成数据。应确保导入选择的数据后,评测集的数据不超过上限。
- 全量覆盖:清除评测集已有数据后,新增数据。
追加数据
评测集版本
导入数据后评测集是发布状态还是草稿状态。
- 自动发布新版本:评测集的状态为已发布,可以直接在评估任务中使用。
- 保持草稿状态:评测集的状态为草稿态,需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本。
自动发布新版本
字段映射
设置评估结果数据字段与评测集字段之间的映射关系,实现数据的回流。
目标字段:评测集中用于接收评估结果数据的列。配置时,需指定评估结果数据回流至评测集的具体列名。
注意:配置约束与说明:
- 不支持将多个评估结果字段映射至评测集的同一列(即不能“多对一”映射)。
- 如果选择回流至评测集的已有列,该列的数据类型不支持修改。请确保源数据类型与目标列一致,类型冲突将导致回流失败。
- 目标评测集中的所有必填字段均必须完成映射,否则无法导出至评测集。
字段映射请参考图3
步骤三:导入至评测集
- 配置完成,确认信息无误后,单击“确定”。
- 导入成功后,单击右上角提示框中的“查看详情”,在跳转的评测集详情页面中查看已添加的数据。
图4 查看详情
