数据精炼使用场景
数据精炼是面向大模型训练的“清洗+合成”一体化数据准备方案。如果您的数据处于“原始粗糙”或“样本匮乏”状态——无论是需要去除HTML标签与乱码的预训练语料清洗,还是需要对少量种子数据进行扩充与润色的SFT指令微调增强,亦或是涉及隐私信息的安全合规脱敏——数据精炼均能通过丰富的数据处理算子编排为一条流水线,将原始数据转化为高质量、高多样性且安全合规的训练数据集。
数据精炼虽然具备强大的数据处理能力和灵活的算子编排方式,但正因为如此,也会让您上手存在一些困难。本文总结了数据精炼的一些常用场景,让您轻松完成数据精炼任务,快速获取高质量的数据,模型开发快人一步。
典型使用场景
根据业务需求不同,数据精炼主要应用于以下几种典型场景,每种场景都配备了推荐的算子组合。您可以根据自己的需求选择不同场景。
- 数据质量差,需要清洗,请选择场景一:原始语料清洗与质量提升。
- 数据量不足,需要扩充,请选择场景二:训练数据扩充与增强。
- 准备SFT微调数据 ,请选择场景三:指令微调数据准备。
- 处理图像/视频数据,请选择场景四:多模态数据统一处理。
- 数据合规性要求,请选择场景五:数据合规与安全处理。
场景一:原始语料清洗与质量提升
场景描述
企业从互联网爬取、内部系统导出或第三方采购的原始数据,通常存在大量噪声,需要系统性清洗以满足模型训练要求。常见语料问题见表1。
|
数据问题 |
表现形式 |
对模型的影响 |
|---|---|---|
|
数据中存在重复信息。 |
数据中存在大量相同或相似内容。 |
导致训练的模型过拟合。 |
|
数据中存在乱码噪声。 |
数据中存在编码错误、异常字符。 |
污染模型语义理解。 |
|
数据中有敏感违规信息。 |
数据中存在涉政/涉黄/暴力内容。 |
模型输出合规风险。 |
|
数据质量低下。 |
语句不通、逻辑混乱,句子不完整。 |
降低模型生成质量。 |
|
数据长度不满足要求。 |
数据过短无意义或过长冗余。 |
训练效率低下。 |
|
数据大杂烩,未分类 |
各领域的数据杂糅,没有按领域分类。 |
需要专门对领域数据分类,影响训练效率。 |
推荐算子编排顺序
原始语料 → [符号标准化] → [去重算子] → [敏感词过滤] → [文本长度过滤] → [段落结尾不完整句子移除] → [色情文本检测] → [涉政文本检测]→ [辱骂文本检测算子] → [预训练文本分类] → 清洗后数据
预期效果
- 数据重复率降低90%以上。
- 低质量样本有效去除。
- 敏感违规内容100%过滤。
- 输出数据可直接用于训练或进入下一步合成环节。
- 输出数据能够按照不同领域分类。
场景二:训练数据扩充与增强
高质量标注数据获取成本高,现有数据量不足以训练出效果良好的模型。
适用情况
- 垂直领域数据稀缺。
- 标注成本过高。
- 需要快速扩充数据规模。
- 数据多样性不足。
推荐算子编排顺序
原始数据 → 数据清洗 → 数据生成 → 扩充后数据
|
算子 |
作用 |
配置建议 |
|---|---|---|
|
数据清洗 |
确保种子数据质量 |
严格筛选标准 |
|
数据生成 |
生成多样化表达 |
选择合适的改写策略,生成多样化数据。 |
预期效果
- 数据规模扩充3-10倍。
- 保持语义一致性。
- 提升表达多样性。
注意事项
- 合成算子需放在工作流末端。
- 仅支持同模态数据合成。
场景三:指令微调数据准备
准备用于大模型指令微调(SFT)的高质量数据集。
适用情况
- 通用助手模型微调。
- 垂直领域模型定制。
- 对话能力优化。
- 任务型模型训练。
推荐算子编排流程
原始指令数据 → 数据清洗 → 文本生成(可选) → 生成数据集
编排完成后,在数据精炼任务生成数据集配置勾选格式转换,生成最终微调数据集。
|
输入格式 |
处理方式 |
输出格式 |
|---|---|---|
|
非结构化文本 |
格式转换算子 |
Alpaca/ShareGPT |
|
已有Alpaca |
质量筛选+改写 |
优化后Alpaca |
|
已有ShareGPT |
质量筛选+改写 |
优化后ShareGPT |
质量控制要点
- 指令明确性检查
- 回答准确性验证
- 格式一致性确保