更新时间:2026-03-09 GMT+08:00
分享

数据精炼使用场景

数据精炼是面向大模型训练的“清洗+合成”一体化数据准备方案。如果您的数据处于“原始粗糙”或“样本匮乏”状态——无论是需要去除HTML标签与乱码的预训练语料清洗,还是需要对少量种子数据进行扩充与润色的SFT指令微调增强,亦或是涉及隐私信息的安全合规脱敏——数据精炼均能通过丰富的数据处理算子编排为一条流水线,将原始数据转化为高质量、高多样性且安全合规的训练数据集。

数据精炼虽然具备强大的数据处理能力和灵活的算子编排方式,但正因为如此,也会让您上手存在一些困难。本文总结了数据精炼的一些常用场景,让您轻松完成数据精炼任务,快速获取高质量的数据,模型开发快人一步。

典型使用场景

根据业务需求不同,数据精炼主要应用于以下几种典型场景,每种场景都配备了推荐的算子组合。您可以根据自己的需求选择不同场景。

场景一:原始语料清洗与质量提升

场景描述

企业从互联网爬取、内部系统导出或第三方采购的原始数据,通常存在大量噪声,需要系统性清洗以满足模型训练要求。常见语料问题见表1

表1 典型数据问题

数据问题

表现形式

对模型的影响

数据中存在重复信息。

数据中存在大量相同或相似内容。

导致训练的模型过拟合。

数据中存在乱码噪声。

数据中存在编码错误、异常字符。

污染模型语义理解。

数据中有敏感违规信息。

数据中存在涉政/涉黄/暴力内容。

模型输出合规风险。

数据质量低下。

语句不通、逻辑混乱,句子不完整。

降低模型生成质量。

数据长度不满足要求。

数据过短无意义或过长冗余。

训练效率低下。

数据大杂烩,未分类

各领域的数据杂糅,没有按领域分类。

需要专门对领域数据分类,影响训练效率。

推荐算子编排顺序

原始语料 → [符号标准化] → [去重算子] → [敏感词过滤] → [文本长度过滤] → [段落结尾不完整句子移除] → [色情文本检测] → [涉政文本检测]→ [辱骂文本检测算子] → [预训练文本分类] → 清洗后数据 

预期效果

  • 数据重复率降低90%以上。
  • 低质量样本有效去除。
  • 敏感违规内容100%过滤。
  • 输出数据可直接用于训练或进入下一步合成环节。
  • 输出数据能够按照不同领域分类。

场景二:训练数据扩充与增强

高质量标注数据获取成本高,现有数据量不足以训练出效果良好的模型。

适用情况

  • 垂直领域数据稀缺。
  • 标注成本过高。
  • 需要快速扩充数据规模。
  • 数据多样性不足。

推荐算子编排顺序

原始数据 → 数据清洗 → 数据生成 → 扩充后数据 
表2 使用算子

算子

作用

配置建议

数据清洗

确保种子数据质量

严格筛选标准

数据生成

生成多样化表达

选择合适的改写策略,生成多样化数据。

预期效果

  • 数据规模扩充3-10倍。
  • 保持语义一致性。
  • 提升表达多样性。

注意事项

  • 合成算子需放在工作流末端。
  • 仅支持同模态数据合成。

场景三:指令微调数据准备

准备用于大模型指令微调(SFT)的高质量数据集。

适用情况

  • 通用助手模型微调。
  • 垂直领域模型定制。
  • 对话能力优化。
  • 任务型模型训练。

推荐算子编排流程

原始指令数据 → 数据清洗 → 文本生成(可选) → 生成数据集 

编排完成后,在数据精炼任务生成数据集配置勾选格式转换,生成最终微调数据集。

表3 数据格式处理

输入格式

处理方式

输出格式

非结构化文本

格式转换算子

Alpaca/ShareGPT

已有Alpaca

质量筛选+改写

优化后Alpaca

已有ShareGPT

质量筛选+改写

优化后ShareGPT

质量控制要点

  • 指令明确性检查
  • 回答准确性验证
  • 格式一致性确保

场景四:多模态数据统一处理

处理包含图像、视频等多种模态的数据集。

适用情况

  • 图像分类数据准备
  • 视频理解数据整理
  • 多模态模型训练数据

推荐算子编排流程(以图像为例)

图像数据集 → 图片去重 → 图片提取 → 图片元数据过滤 → 图像检测 → 处理后数据 
表4 各模态处理要点

模态

关键处理

注意事项

图像

尺寸、格式、质量

分辨率统一

视频

帧率、分辨率、片段

视频编码统一

重要约束

多模态场景下不支持使用合成算子(跨模态限制)。

每种模态需单独创建处理任务。

场景五:数据合规与安全处理

确保训练数据符合法规要求和企业安全策略。

适用情况

  • 个人信息保护(GDPR/个保法)。
  • 敏感内容过滤。

推荐算子编排流程

原始数据 → 敏感词过滤 → 合规数据 

使用算子

算子

作用

合规要求

敏感词过滤

过滤个人信息敏感内容。

符合个人隐私要求。

相关文档