创建数据精炼
使用场景
数据精炼是面向大模型训练的“清洗+合成”一体化数据准备方案。如果您的数据处于“原始粗糙”或“样本匮乏”状态——无论是需要去除HTML标签与乱码的预训练语料清洗,还是需要对少量种子数据进行扩充与润色的SFT指令微调增强,亦或是涉及隐私信息的安全合规脱敏——数据精炼均能通过丰富的数据处理算子编排为一条流水线,将原始数据转化为高质量、高多样性且安全合规的训练数据集。
前提条件
计费说明
数据连接计费涉及到数据存储OBS计费,具体可参考数据管理计费项。
约束限制
- 仅西南-贵阳一区域的新版控制台支持。
- 合成算子位置限制:合成算子必须且只能放置在工作流的最后一个节点。不支持插入到加工算子中间,也不支持后接其他过滤算子。
- 模态限制:
- 仅支持同模态合成(如文本输入 -> 文本输出)。
- 不支持跨模态生成(如输入文本生成问答对、输出文本生成图像等)。
- 功能限制:
- 不支持自定义合成指令(Prompt),不支持模板功能。
- 不支持合成任务的在线调测。
- 合成算子输出字段固定,但会自动保留输入数据集中的原始字段。
- 数据量与质检:
- 不支持用户自定义合成数据的输出条数(系统根据输入自动处理)。
- 不支持对合成结果进行自动质检过滤。
- 合成结果将输出到新数据集,不支持自动与原始数据集合并。
创建数据精炼步骤
数据精炼业务流程整体如图1所示。
- 前往ModelArts管理控制台。
- 准备数据集。数据精炼支持文本、图片、视频类数据集作为输入数据,具体数据导入可参考数据连接提前将数据导入到ModelArts平台,也可使用ModelArts平台预置数据集。
- 在控制台左侧导航栏选择“数据准备 > 数据精炼”,打开“创建智能精炼”工作区,如图2所示。
图2 智能精炼
- 创建智能精炼任务。在数据精炼工作区右上方单击“创建任务”按钮,打开“创建智能精炼”配置页配置智能精炼任务相关信息。配置信息如下:
- 基本信息:配置任务名称和描述信息。任务名称为必选,描述信息为可选。
图3 配置基本信息
说明:
任务名称:命名默认为data-refine-年月日时分秒,如:data-refine-20260226084902,也可自定义名称,命名要求如下:
- 命名长度:2~64字符。
- 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线等字符。
描述:无格式要求,长度不超过200字符,内容可选填。
- 选择数据集。数据集可以选择ModelArts平台预置数据,也可以选择我的数据。当前支持输入数据集模态为文本、图片、视频类。
图4 选择数据集
- 选择精炼模板。ModelArts预置了常用数据精炼模板,精炼模板根据使用场景将常用的业务处理算子及各算子的参数配置好,您可以直接使用,如需进一步了解精炼模板,请参考管理数据精炼模板。如果您的使用场景不是精炼模板包含的业务,可不选择精炼模板,直接单击“下一步”。
图5 精炼模板
- 基本信息:配置任务名称和描述信息。任务名称为必选,描述信息为可选。
- 选择并配置相关算子。需要根据场景选择不同的算子做编排,如果对算子使用场景有疑问,请参考数据精炼使用场景章节选择,如果需要了解算子详细用法,请参考管理数据精炼算子。选择算子后,在工作区出现算子编排区域,配置算子顺序及算子参数后。右下角单击“下一步”。
图6 算子编排
- 配置生成数据集。需要配置输入数据集名称、存储地址、数据集属性(可选)、描述信息(可选)。
图7 生成数据集
说明:
数据集名称:
- 命名长度:2~63字符。
- 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线字符。
数据集属性:可选字段,支持配置标签。可以按照行业、语言维度配置标签,也可自定义标签。
描述:可选字段,无格式要求,长度不超过200字。
- 数据集填写完成后,配置“立即上线数据集”。
- 选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为上线状态,可以被下游模型训练等作业直接使用。
- 不选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。
图8 选择“立即上线数据集”
- 配置“格式转换”。如果数据集需要转为开源的Alpaca或ShareGPT格式以支持开源模型的预训练,则勾选格式转换开关,否则不勾选。当前仅文本类的单轮对话、单轮对话(带人设)、多轮对话、多轮对话(带人设)四类数据集支持格式转换。
图9 格式转换
- 配置“资源配置”。数据算子在处理数据时,需要用到计算资源,针对处理场景和算子类型不同,需要用到CPU或NPU类资源,需要根据选择算子具体确认。使用公共资源池,并选择CPU资源或NPU资源,会涉及到CPU或NPU资源的计费,费用信息请以实际账单为准。配置完毕后单击右下角“确认”后,启动智能精炼任务。
图10 资源配置
- 智能精炼任务完成后,生成的数据集可在控制台左侧选择“资产管理 > 数据 >我的数据”列表中查看。
最佳实践:算子编排设计原则
原则1:先清洗,后处理。
建议顺序:去重 → 格式化 → 过滤 → 增强 → 合成
原则2:减少数据在前,扩充数据在后。先用过滤算子减少数据量,再用合成算子扩充,可提升整体处理效率。
原则3:合成放末端,合成算子只能作为最后一个处理步骤。
原则4:保持模态一致,整个工作流处理同一类型数据,不跨模态。
推荐算子编排模板
模板一:基础数据清洗
输入 → 格式校验 → 去重 → 长度过滤 → 输出
模板二:数据清洗+质量提升
输入 → 格式校验 → 去重 → 敏感词过滤 → 质量评分筛选 → 输出
模板三:数据清洗+合成扩充
输入 → 去重 → 敏感词过滤 → 质量筛选 → 问答改写合成 → 输出
模板四:全流程精炼
输入 → 格式转换 → 去重 → 敏感词过滤 → 质量评分 → 长度筛选 → 改写合成 → 输出