更新时间:2026-03-12 GMT+08:00
分享

数据准备功能说明

功能介绍

数据决定了大模型的能力上限。ModelArts数据准备功能提供了一站式、全流程的数据处理和管理服务,致力于解决大模型开发中“数据获取难、质量参差不齐、处理效率低”的核心痛点。通过内置的行业级数据处理算子与自动化流水线,系统化的处理数据获取、加工、发布等过程,帮助您将海量、多模态的原始数据,高效转化为高可用、高纯度的训练数据集,提高数据质量和处理效率,显著降低模型训练成本,提升模型泛化能力。

数据准备开发流程

ModelArts平台提供了全流程的数据开发功能,您可使用数据连接数据精炼完成模型数据集的开发。其中模型精炼包含数据处理的全流程,包括数据加工,数据合成功能。助力开发者快速生成模型开发所需的数据集。

数据准备整体开发流程如图1所示。

图1 数据准备开发流程
  • 数据连接:数据获取是数据工程的第一步,支持将不同来源和不同格式的数据导入平台,并生成“原始数据集”。通过该功能,用户可以轻松将大量数据导入平台,为后续的数据精炼和模型开发做好准备。详见数据连接章节。
  • 数据精炼:数据精炼模块提供了数据加工、数据合成一站式操作,旨在确保原始数据能够满足各种业务需求和模型开发的标准,加工出满足模型开发的数据集,详见数据精炼章节。

数据资产管理

数据资产管理模块为开发者提供了一站式的多种模态数据管理中心。它打破了数据孤岛,实现了从数据接入、版本控制、质量预览到最终调用的全链路闭环管理。ModelArts平台支持管理文本、图像、音频、视频等多种模态的数据,并根据来源不同,划分为平台预置数据资产与用户自定义数据资产两大类,满足从通用能力构建到垂直领域定制的全场景需求。详见数据资产管理章节。

ModelArts平台支持的数据类型

ModelArts平台提供了业界最全面的数据处理功能。包括对文本类、图片类、音频类、视频类、数据集处理,还提供了自定义数据集功能,支持业界广泛使用的AlpacaShareGPT等数据集格式,能够灵活处理多样化的数据。

平台多样化的数据精炼和管理能力,为您提供丰富而全面的数据集,是您开发大模型的利器。

平台支持的数据类型见表1,各类型数据格式详细要求请参考数据集格式要求

表1 平台支持的数据类型

数据类型

数据内容

支持的文件格式

数据集要求

文本

文档

docx

文本类数据集格式要求

预训练文本

jsonl

单轮问答

jsonl、csv

单轮问答(人设)

jsonl、csv

多轮问答

jsonl

多轮问答(人设)

jsonl

问答排序

jsonl、csv

偏好优化DPO

jsonl

偏好优化DPO(人设)

jsonl

图片类

图片

  • 图片+jsonl(可选)
    • 图片格式支持:jpg、jpeg、png、bmp。
    • jsonl为非必选文件类型。当存在jsonl文件时,需要保证如下条件:
      • jsonl中索引的图片文件必须存在。
      • jsonl文件必须位于数据集根目录,且命名为annotation.jsonl。
      • jsonl文件仅支持UTF-8编码。

图片类数据集格式要求

视频类

视频

mp4、avi

视频类数据集格式要求

视频+标注

  • 视频+jsonl
    • 视频格式支持:mp4、avi。
    • 标注文件格式:jsonl,jsonl文件仅支持UTF-8编码。

音频类

音频

  • 音频+jsonl
    • 音频文件:支持mp3、flac、wav、opus、aac、m4a格式,允许放在根目录或下层目录中。
    • 标注文件格式:可选,格式为UTF-8编码的jsonl文件,每一行描述一个音频文件在数据集中的相对路径以及其它信息。

音频类数据集格式要求

其他类

自定义

支持构建用户自定义场景下所需的数据集类型。支持主流Alpaca和ShareGPT格式数据集。

其他类数据集格式要求

相关文档