数据精炼功能说明
功能介绍
数据精炼是ModelArts数据工程的核心功能模块,旨在解决大模型训练数据准备过程中的“质量”与“数量”双重挑战。它打破了传统数据处理工具的界限,将基于规则的数据加工(清洗、过滤、去重等)与基于大模型的数据合成(改写、扩充、润色等)深度融合。
通过可视化的编数据算子编排,您可以像搭积木一样,将多个加工算子与合成算子串联成一条自动化流水线。系统将按照预设逻辑,对海量原始数据进行层层筛选与优化,最终输出符合训练要求的高质量数据集。
核心价值
- 流程统一:加工与合成一体化编排,无需在多个功能模块间切换,减少中间数据流转,一个任务即可完成从原始脏数据到高质量训练集的全过程。
- 质量提升:通过多级加工算子层层过滤,确保进入合成环节的数据质量可靠。
- 灵活编排:支持几十种算子自由组合,满足从简单清洗到复杂增强的各类业务场景。
- 规模扩充:在清洗后的高质量数据基础上进行合成改写,高效扩充训练数据。
- 效率提升:可视化算子编排,所见即所得,无需编写处理脚本。
- 可复现性:使用精炼模板精炼数据,精炼模板可保存、可复用,保证数据处理流程的一致性。
