文档首页/ 魔坊（ModelArts）模型训推平台/ 数据准备/ 数据精炼/ 数据精炼使用场景

更新时间：2026-04-23 GMT+08:00

数据精炼使用场景

数据精炼是面向大模型训练的“清洗+合成”一体化数据准备方案。如果您的数据处于“原始粗糙”或“样本匮乏”状态——无论是需要去除HTML标签与乱码的预训练语料清洗，还是需要对少量种子数据进行扩充与润色的SFT指令微调增强，亦或是涉及隐私信息的安全合规脱敏——数据精炼均能通过丰富的数据处理算子编排为一条流水线，将原始数据转化为高质量、高多样性且安全合规的训练数据集。

数据精炼虽然具备强大的数据处理能力和灵活的算子编排方式，但正因为如此，也会让您上手存在一些困难。本文总结了数据精炼的一些常用场景，让您轻松完成数据精炼任务，快速获取高质量的数据，模型开发快人一步。

典型使用场景

根据业务需求不同，数据精炼主要应用于以下几种典型场景，每种场景都配备了推荐的算子组合。您可以根据自己的需求选择不同场景。

仅对文本类数据集格式做转换，请选择场景一：数据集格式转换。
数据质量差，需要清洗，请选择场景二：原始语料清洗与质量提升。
数据量不足，需要扩充，请选择场景三：训练数据扩充与增强。
准备SFT微调数据，请选择场景四：指令微调数据准备。
处理图像/视频数据，请选择场景五：多模态数据统一处理。
数据合规性要求，请选择场景六：数据合规与安全处理。

场景一：数据集格式转换

场景描述

ModelArts平台支持多种数据集格式，需要将数据从一种格式转成另外格式的数据集，不做额外的数据处理。

推荐算子编排顺序

开始节点 → 结束节点

预期效果

实现输入数据转为不同格式（Alpaca格式/ShareGPT格式/平台格式）的输出数据。

场景二：原始语料清洗与质量提升

场景描述

企业从互联网爬取、内部系统导出或第三方采购的原始数据，通常存在大量噪声，需要系统性清洗以满足模型训练要求。常见语料问题见表1。

表1 典型数据问题
数据问题	表现形式	对模型的影响
数据中存在重复信息。	数据中存在大量相同或相似内容。	导致训练的模型过拟合。
数据中存在乱码噪声。	数据中存在编码错误、异常字符。	污染模型语义理解。
数据中有敏感违规信息。	数据中存在涉政/涉黄/暴力内容。	模型输出合规风险。
数据质量低下。	语句不通、逻辑混乱，句子不完整。	降低模型生成质量。
数据长度不满足要求。	数据过短无意义或过长冗余。	训练效率低下。
数据大杂烩，未分类	各领域的数据杂糅，没有按领域分类。	需要专门对领域数据分类，影响训练效率。

推荐算子编排顺序

原始语料 → [符号标准化] → [去重算子] → [敏感词过滤] → [文本长度过滤] → [段落结尾不完整句子移除] → [色情文本检测] → [涉政文本检测]→ [辱骂文本检测算子] → [预训练文本分类] → 清洗后数据

预期效果

数据重复率降低90%以上。
低质量样本有效去除。
敏感违规内容100%过滤。
输出数据可直接用于训练或进入下一步合成环节。
输出数据能够按照不同领域分类。

场景三：训练数据扩充与增强

高质量标注数据获取成本高，现有数据量不足以训练出效果良好的模型。

适用情况

垂直领域数据稀缺。
标注成本过高。
需要快速扩充数据规模。
数据多样性不足。

推荐算子编排顺序

原始数据 → 数据清洗 → 数据生成 → 扩充后数据

表2 使用算子
算子	作用	配置建议
数据清洗	确保种子数据质量	严格筛选标准
数据生成	生成多样化表达	选择合适的改写策略，生成多样化数据。

预期效果

数据规模扩充3-10倍。
保持语义一致性。
提升表达多样性。

注意事项

合成算子需放在工作流末端。
仅支持同模态数据合成。

场景四：指令微调数据准备

准备用于大模型指令微调（SFT）的高质量数据集。

适用情况

通用助手模型微调。
垂直领域模型定制。
对话能力优化。
任务型模型训练。

推荐算子编排流程

原始指令数据 → 数据清洗 → 文本生成（可选） → 生成数据集

表3 数据格式处理
输入格式	处理方式	输出格式
非结构化文本	格式转换算子	Alpaca/ShareGPT
已有Alpaca	质量筛选+改写	优化后Alpaca
已有ShareGPT	质量筛选+改写	优化后ShareGPT

质量控制要点

指令明确性检查
回答准确性验证
格式一致性确保

场景五：多模态数据统一处理

处理包含图像、视频等多种模态的数据集。

适用情况

视频理解数据整理

推荐算子编排流程（以图像为例）

图像数据集 → 图片去重 → 图片提取 → 图片元数据过滤 → 图像检测 → 处理后数据

表4 各模态处理要点
模态	关键处理	注意事项
图像	尺寸、格式、质量	分辨率统一
视频	帧率、分辨率、片段	视频编码统一

重要约束

每种模态需单独创建处理任务。

场景六：数据合规与安全处理

确保训练数据符合法规要求和企业安全策略。

适用情况：

个人信息保护（GDPR/个保法）。
敏感内容过滤。

推荐算子编排流程

原始数据 → 敏感词过滤 → 合规数据

使用算子：

算子	作用	合规要求
敏感词过滤	过滤个人信息敏感内容。	符合个人隐私要求。

父主题： 数据精炼

上一篇：智能精炼快速入门

下一篇：创建智能精炼

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

数据精炼使用场景

典型使用场景

场景一：数据集格式转换

场景二：原始语料清洗与质量提升

场景三：训练数据扩充与增强

场景四：指令微调数据准备

场景五：多模态数据统一处理

场景六：数据合规与安全处理

相关文档

意见反馈

文档内容是否对您有帮助？