更新时间:2026-03-09 GMT+08:00
分享

数据精炼功能说明

功能介绍

数据精炼是ModelArts数据工程的核心功能模块,旨在解决大模型训练数据准备过程中的“质量”与“数量”双重挑战。它打破了传统数据处理工具的界限,将基于规则的数据加工(清洗、过滤、去重等)与基于大模型的数据合成(改写、扩充、润色等)深度融合。

通过可视化的编数据算子编排,您可以像搭积木一样,将多个加工算子与合成算子串联成一条自动化流水线。系统将按照预设逻辑,对海量原始数据进行层层筛选与优化,最终输出符合训练要求的高质量数据集。

功能架构

数据精炼以文本、图片、视频类数据集作为输入源,构建由多种数据加工算子及合成算子串联编排的智能精炼任务,输出精炼后数据集。具体功能架构参见图1

图1 数据精炼功能架构

核心价值

  • 流程统一:加工与合成一体化编排,无需在多个功能模块间切换,减少中间数据流转,一个任务即可完成从原始脏数据到高质量训练集的全过程。
  • 质量提升:通过多级加工算子层层过滤,确保进入合成环节的数据质量可靠。
  • 灵活编排:支持几十种算子自由组合,满足从简单清洗到复杂增强的各类业务场景。
  • 规模扩充:在清洗后的高质量数据基础上进行合成改写,高效扩充训练数据。
  • 效率提升:可视化算子编排,所见即所得,无需编写处理脚本。
  • 可复现性:使用精炼模板精炼数据,精炼模板可保存、可复用,保证数据处理流程的一致性。

相关文档