更新时间:2026-04-16 GMT+08:00
分享

AI合成评测集

智能合成评测数据功能旨在解决应用在评估过程中评测样本“质低量少”的瓶颈。通过大模型技术,平台能够对原始种子样本进行泛化与强化,帮助用户快速、低成本地构建出符合特定业务需求的高质量验证数据集。

工作原理

智能合成评测数据功能基于大模型技术,通过对原始种子样本进行语义理解、风格迁移和场景扩展,生成符合特定业务需求的高质量验证数据集。具体工作流程如下:

  1. 种子数据分析:对用户提供的原始样本进行深度分析,提取语义特征、语言风格和业务模式 。
  2. 模式识别与泛化:识别数据中的模式和规律,生成具有相同特征但内容不同的新样本 。
  3. 质量控制:通过多轮筛选和验证,确保合成数据的质量和多样性 。
  4. 业务适配:根据用户指定的场景和要求,调整数据的业务相关性和实用性。

适用场景:

  • 生产环境数据扩容与衍生:适用于已有生产环境数据但样本量不足,需要快速扩展数据集覆盖面的场景。

    针对生产环境回流的badcase样本存在规模瓶颈或场景覆盖盲区的问题,本功能支持即时扩展与合成,生成大量衍生样本,从而为模型评测或精细调优提供充足的数据支撑。

  • 样本缺口弥补和控制数据分布:适用于评测集存在长尾效应、样本分布不均,需要定制特定数据结构的场景

    现有评测集存在样本不足、长尾效应显著等问题,或需定制特定的数据分布结构,用户可通过配置生成比例及指定分类策略(支持标签、既有字段及自定义类别),将合成数据的分布形态准确映射至预期的线上用户画像或预设目标。

  • 合成对抗测试样本:适用于需要测试模型在极端、边界条件下的表现,发现潜在问题的场景。

    聚焦于低频高危边界场景(涵盖对抗性输入、极端边界条件、复杂逻辑链条等),自动生成高难度测试样本,旨在深度探测模型或智能体的能力边界与薄弱环节,助力Agent能力强化。

  • 安全合规与红线探测:适用于内容安全测试、合规性验证,需要探测模型安全边界的场景。

    聚焦于内容安全与业务合规领域,定向合成涉及隐私泄露、敏感话题、偏见歧视等触碰业务红线的试探性样本。通过构建此类数据集,能够对应用的安全护栏进行测试,确保输出内容符合法律法规及伦理道德标准,降低业务上线风险。

前提条件

约束与限制

表1 使用限制

限制

说明

支持的数据类型

智能合成功能仅支持合成String类型的数据字段。

任务创建次数上限

最多支持创建1个智能合成任务。

多轮数据生成限制

智能合成多轮数据时,评测集配置列名称必须严格匹配为input和reference_output。如果使用了自定义列名(例如:question、answer),该功能将不可用。

数据集选择限制

智能合成任务仅支持基于已发布版本的评测集进行数据泛化。草稿状态或未发布的评测集无法作为种子数据被选中。

步骤一:创建智能合成任务

  1. 登录AgentArts智能体开发平台
  2. 在左侧导航栏中选择“运营运维 > 评估 > 评测集”,选择“智能合成任务”页签。
  3. 单击右上角的“创建智能合成任务”,在“创建智能合成任务”的页面中配置种子数据与合成要求生成数据,参照表2完成配置。
    表2 创建智能合成任务

    参数

    说明

    示例

    合成场景及来源

    名称

    智能合成数据任务的名称。

    命名规则:

    • 命名要求:可以包含中文、英文、数字、下划线(_)、中划线(-)和空格,不允许以空格开头或结尾和使用其他特殊字符。
    • 长度限制:2~50个字符。

    科学知识数据合成

    场景和用途描述

    描述该任务合成数据的业务场景与评测数据用途。

    建议按照“评估的场景 + 智能体核心功能”的结构描述,便于生成适配业务需求的数据。

    数据用于评估“科学知识助手”智能体,需包含科学概念解释、原理机制阐述、实验操作指导、科普常识问答等相关语料。

    合成场景

    仅支持基于种子数据泛化,表示从真实数据学习本质特性合成数据。

    基于种子数据泛化

    种子数据

    类型

    数据集的来源,目前仅支持从已有评测集中选择。

    已有评测集

    评测集

    从已创建的评测集中选择种子数据集。

    注意:

    如果合成多轮数据,评测集列名必须严格匹配为input和reference_output,否则功能不可用。

    科学知识

    合成配置

    需要合成的列

    合成的评测集的列,页面会展示种子评测集中已有的列名,你需要选择待合成的列名或者单击右侧的“添加”新增需要合成的列并填写描述和合成要求,帮助模型理解如何合成新的数据。

    合成多轮对话的数据时,不支持“添加”新的合成列。

    • 列名:需要合成的列的名称。
    • 描述:评测集列的含义。
    • 合成要求:描述智能合成的要求,如场景侧重、特征分布、详略程度等。

    input

    reference_output

    合成样本数

    合成的样本数量。取值范围为 1~300 之间的正整数。

    建议:合成样本数最好不要超过种子数据的10倍,否则会导致泛化能力不足、数据相似度较高。

    50

    图1 配置示例
  4. 单击“开始合成”后,页面将自动跳转至任务详情页,页面显示任务正在执行中。

    您也可以单击“仅保存”,保存一个草稿态的任务,需要合成数据时,单击操作列的“运行”即可开始智能合成任务。

步骤二:导出合成数据至评测集

智能合成任务创建完成后,系统将自动跳转至智能合成详情页。您也可以在评测集的“智能合成”页签,通过单击目标任务名称进入详情页。

在详情页中,您可以查看任务的执行进展,并对合成的样本进行预览与校验。建议将符合标准的优质样本导出至评测集,作为后续评估任务的数据支撑。

数据导出到评测集时,请遵循评测集的约束与限制,具体说明请参见约束与限制

  1. “智能合成详情”页的数据项列表中,预览并确认样本内容质量达标。
    图2 智能合成详情
  2. 勾选需要导出的数据,单击列表右上角的“导出至评测集”
    • 导出全部数据至评测集:无需勾选具体条目,直接导出当前任务下的所有数据。
    • 导出已选中数据至评测集:仅导出勾选的数据条目。
  3. “导出评测集”的弹框中,配置导出的规则。根据业务需求选择目标评测集类型:
    • 创建评测集:创建一个全新的评测集并添加数据,参数说明请参见表3 新建评测集
      图3 创建评测集配置示例
      表3 创建评测集

      参数

      说明

      示例

      目标评测集

      选择数据添加到新建的评测集。

      选择“创建评测集”

      评测集名称

      新建评测集的名称。

      科学知识数据集

      描述

      评测集的描述。

      用于评估“科学知识助手”智能体,需包含科学概念解释、原理机制阐述、实验操作指导、科普常识问答等相关语料。

      评测集版本

      新创建的评测集是发布状态还是草稿状态。

      • 自动发布新版本:评测集的状态为已发布,可以直接在评估任务中使用。
      • 保持草稿状态:评测集的状态为草稿态,需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本

      自动发布新版本

      字段映射

      设置智能合成的数据字段和评测集字段及映射关系。

      目标字段:设置将智能合成数据字段回流到评测集具体哪一列。

      必填:设置评测集的列是否为必填项。

      注意:

      不支持多个字段回流到评测集同一列。如果选择回流到已有列,已有列的数据类型不支持修改,数据类型不一致可能导致回流失败

      字段映射请参考图3

    • 已有评测集:将数据添加至已存在的评测集中,参数说明请参见表4 已有评测集
      图4 已有评测集配置示例
      表4 已有评测集

      参数

      说明

      示例

      目标评测集

      选择数据添加到已有评测集。

      选择“已有评测集”

      目标评测集名称

      选择将智能合成数据具体要添加到的目标评测集。

      科学知识

      导入方式

      数据导入评测集的方式,支持追加数据或全面覆盖。

      • 追加数据在评测集已有数据下新增智能合成数据。应确保导入选择的数据后,评测集的数据不超过上限。
      • 全量覆盖:清除评测集已有数据后,新增数据。

      追加数据

      评测集版本

      导入数据后评测集是发布状态还是草稿状态。

      • 自动发布新版本:评测集的状态为已发布,可以直接在评估任务中使用。
      • 保持草稿状态:评测集的状态为草稿态,需要发布后才能在评估任务中使用。发布评测集请参考发布评测集版本

      自动发布新版本

      字段映射

      设置智能合成的数据字段和评测集字段及映射关系。

      目标字段:评测集中用于接收评估结果数据的列。配置时,需指定评估结果数据回流至评测集的具体列名。

      注意:

      配置约束与说明:

      • 不支持将多个评估结果字段映射至评测集的同一列(即不能“多对一”映射)。
      • 如果选择回流至评测集的已有列,该列的数据类型不支持修改。请确保源数据类型与目标列一致,类型冲突将导致回流失败。
      • 目标评测集中的所有必填字段均必须完成映射,否则无法导出至评测集。

      字段映射请参考图4

  4. 配置完成后单击“确定”

    导出成功后,前往评测集列表页面,您可以在目标评测集的评测集页签中查看到已添加的智能合成数据。

常见问题

在将智能合成生成的数据回流至数据集时,提示“数据校验失败”怎么办。

该问题通常由以下两种原因导致:

  1. 字段结构不匹配:评测集定义了必填字段,但在导出评测集时字段映射缺少评测集中的必填字段。
    • 示例一:评测集包含input、reference_output、actual_output三个必填字段,而智能合成任务仅生成了input和reference_output,因缺少必填字段actual_output的映射,导致无法导入。
    • 示例二:评测集包含input、reference_output两个必填字段,actual_output为非必填字段。在配置映射时,仅选择了input和actual_output,导致必填字段reference_output未被映射,导致无法导入。
  2. 数据类型限制:当前版本智能合成生成的数据仅支持String类型。如果评测集目标字段为非String类型(如Integer、Float、Boolean),将导致回流失败。
    图5 报错信息
处理建议:请检查目标评测集的字段配置与智能合成任务的输出配置,确保满足导入要求。
  • 针对字段不匹配
    • 示例一解决方案:调整智能合成任务。修改智能合成任务的合成配置,添加合成列,确保合成的数据字段包含目标评测集的所有必填字段。

      合成多轮对话任务时,不支持添加合成列。

    • 示例二解决方案:调整映射关系。在导入配置界面,重新选择字段映射关系,确保评测集中所有必填字段均已正确映射。
  • 针对类型限制重建评测集由于当前版本评测集创建后不支持修改字段类型,请删除当前评测集后重新创建,并确保用于接收回流数据的字段类型配置为String

相关文档