更新时间:2026-03-13 GMT+08:00
分享

数据精炼

数据精炼是面向大模型训练的“清洗+合成”一体化数据准备方案。如果您的数据处于“原始粗糙”或“样本匮乏”状态——无论是需要去除HTML标签与乱码的预训练语料清洗,还是需要对少量种子数据进行扩充与润色的SFT指令微调增强,亦或是涉及隐私信息的安全合规脱敏——数据精炼均能通过丰富的数据处理算子编排为一条流水线,将原始数据转化为高质量、高多样性且安全合规的训练数据集。

约束限制

  • 合成算子位置限制:合成算子必须且只能放置在工作流的最后一个节点。不支持插入到加工算子中间,也不支持后接其他过滤算子。
  • 模态限制
    • 仅支持同模态合成(如文本输入 -> 文本输出)。
    • 不支持跨模态生成(如输入文本生成问答对、输出文本生成图像等)。
  • 功能限制
    • 不支持自定义合成指令(Prompt),不支持模板功能。
    • 不支持合成任务的在线调测。
    • 合成算子输出字段固定,但会自动保留输入数据集中的原始字段。
  • 数据量与质检
    • 不支持用户自定义合成数据的输出条数(系统根据输入自动处理)。
    • 不支持对合成结果进行自动质检过滤。
    • 合成结果将输出到新数据集,不支持自动与原始数据集合并。

创建数据精炼任务

创建数据精炼任务,请参见创建数据精炼

相关文档