更新时间:2025-06-30 GMT+08:00

创建合成任务

解释说明

数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。

当前,数据合成功能支持合成单轮问答、单轮问答(人设)、问答排序、偏好优化DPO、偏好优化DPO(人设)类型的文本类数据。

操作步骤

  1. 在“创建合成任务”页面,选择需要合成的数据集、“合成内容”与“单条数据合成次数”。
  2. 如果合成前的数据集与合成后的数据集结构相同,可选择开启“将源数据集整合至合成后数据”,在所有合成轮数运行完成后,将生成的数据与原始数据集合并,单击“下一步”。
  3. 进入“合成步骤编排”页面,在左侧“添加指令”页面可选择预置指令或自定义指令。
    • 预置指令。平台为用户提供了多种预置指令如表1,便于用户执行合成任务。
      表1 预置数据指令清单

      指令分类

      指令名称

      指令描述

      生成问题

      问题改写为更低难度

      该指令可以通过用户输入的问题,使大模型按要求生成一个难度更低、更为简单的问题。

      问题改写为更高难度

      该指令通过用户输入的问题,使大模型按要求生成一个难度更高、更为复杂的问题。

      基于提问生成作答要求

      该指令根据输入的问题,使大模型泛化一个相应问题的作答要求,该要求与原问题内容不直接相关。该指令可与根据作答要求回答问题的指令进行编排,实现风格多样回答的合成。

      根据样例生成相似问题_few-shot

      该指令通过用户输入的多个问题样例,生成一个或多个与样例风格相匹配的新问题。

      根据文本生成问题

      根据用户输入的上下文,生一个问题。可用于文本生成QA对的合成编排

      问题改写

      改写问题,生成更复杂的问题,可用于指令泛化

      生成回答

      回答改写

      根据用户指定人设,改写回答的风格,不改变回答内容。可与人设泛化指令编排,实现问答对泛化

      根据文本生成回答_遵循要求

      根据用户指定的指令要求和问题,根据输入的上下文生成相应回答。可与指令泛化进行编排,实现事实遵循类问答对泛化

      问题生成回答

      根据提问,生成回答

      根据文本生成回答_扮演指定人设

      根据用户指定的人设和问题,根据输入的上下文生成相应回答。可与人设泛化指令编排,实现事实遵循类问答对泛化。

      问题生成回答_扮演指定人设

      根据用户指定的人设和问题,生成相应回答。可与人设泛化指令编排,实现问答对泛化。

      根据文本生成回答

      根据用户输入的上下文和问题,生成相应回答。可实现事实遵从的合成

      生成问答对

      文本生成问答对_判断题

      该指令能够从用户提供的参考文本中构建出一个判断题,同时给出其正确回答。

      文本生成问答对_填空题

      该指令能够从用户提供的参考文本中构建出一个填空题,同时给出其正确回答。

      文本生成问答对_单选题

      该指令能够从用户提供的参考文本中构建出一个包含四个选项的单选题,同时给出其正确回答

      文本生成问答对_多选题

      该指令能够从用户提供的参考文本中构建出一个包含四个选项的多选题,同时给出其正确回答。

      文本生成问答对_问答题

      该指令能够从用户提供的参考文本中构建出一个问题,同时给出其相应回答。

      根据文本抽取问答对_金融场景

      根据用户输入的金融类文档进行问答对的抽取。

      生成人设

      根据问题生成人设

      根据用户输入的问题生成一个人物设定。

      其他

      BadCase问题泛化

      该指令通过用户提供的badcase问题和回答,利用大模型生成在类似情景下可能犯错的攻击性问题。用户可指定生成的攻击性问题个数,个数不超过10。

      根据答案推导解题思路

      指令通过用户输入的问题和回答,利用大模型生成包含相应解题思路的回答。

      指令泛化

      根据用户指定风格,进行指令泛化。可与指定要求类的问答对生成相关指令编排,实现问答对泛化

    • 自定义指令。平台支持编排用户自定义指令,可在“数据工程 > 数据加工 > 合成任务”中单击“管理合成指令”进行创建。
  4. 指令选择完成后,配置指令参数。

    图1,展示了预训练文本类数据集的合成指令参数配置示例,该合成任务实现利用预训练文本生成问答对。

    图1 预训练文本类数据集合成指令参数配置示例
  5. 指令编排完成后,单击右上角“启用调测”,可以对当前编排的指令效果进行预览。
  6. 指令调测完成后,单击“下一步”,填写如下信息。
    • 自动生成加工数据集:启用后任务运行成功自动生成加工数据集,可用于下游数据集发布;如关闭需在加工任务列表操作生成。
    • 填写数据集和描述。
    • 填写扩展信息(可选):包括行业、语言和自定义信息。
  7. 单击“创建并启动”,平台将启动合成任务。