更新时间:2026-02-07 GMT+08:00
分享

数据准备功能说明

功能介绍

数据决定了大模型的能力上限。ModelArts数据准备功能提供了一站式、全流程的数据处理和管理服务,致力于解决大模型开发中“数据获取难、质量参差不齐、处理效率低”的核心痛点。通过内置的行业级数据处理算子与自动化流水线,系统化的处理数据获取、加工、发布等过程,帮助您将海量、多模态的原始数据,高效转化为高可用、高纯度的训练数据集,提高数据质量和处理效率,显著降低模型训练成本,提升模型泛化能力。

数据工程开发流程

ModelArts平台(下称“平台”)提供了快捷的数据开发流程,您通过数据连接即可完成模型数据集的开发。

  • 数据连接:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台,并生成“原始数据集”。通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。详见数据连接章节。

数据资产管理

在集成了数据连接,数据精炼功能外,平台还支持对原始数据集、加工数据集、发布数据集、数据合成指令进行一站式管理。在大规模数据集的构建过程中,平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。管理各类型数据集以及通过数据质量评估确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用。详见数据资产管理章节。

ModelArts平台支持的数据类型

ModelArts平台(下称“平台”)提供了业界最全面的数据处理功能。包括对文本类、图片类、音频类、视频类常规数据集处理,还提供了自己定义数据集功能,支持业界使用广泛的Alpaca等数据集格式,能够灵活处理多样化的数据。

平台多样化的数据精炼和管理能力,为您提供丰富而全面的数据集,是您开发大模型的利器。

平台支持的数据类型见表1,各类型数据格式详细要求请参考数据集格式要求

表1 平台支持的数据类型

数据类型

数据内容

支持的文件格式

数据集要求

文本

单轮问答

jsonl、csv

文本类数据集格式要求

单轮问答(人设)

jsonl、csv

多轮问答

jsonl

多轮问答(人设)

jsonl

问答排序

jsonl、csv

偏好优化DPO

jsonl

偏好优化DPO(人设)

jsonl

图片类

图片

  • 图片+jsonl(可选)
    • 图片格式支持:jpg、jpeg、png、bmp。
    • jsonl为非必须文件类型。当存在jsonl文件时,图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。注意:jsonl文件仅支持UTF-8编码。
  • tar+jsonl(可选):所有图片保存为tar包。
    • 图片格式支持:jpg、jpeg、png、bmp。
    • jsonl为非必须文件类型。当存在jsonl文件时,图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。注意:jsonl文件仅支持UTF-8编码。

图片类数据集格式要求

图片+Caption

  • tar+jsonl:所有图片保存为tar包。
    • 图片格式支持:jpg、jpeg、png、bmp。
    • 图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。注意:jsonl文件仅支持UTF-8编码。

视频类

视频

mp4、avi

视频类数据集格式要求

视频+标注

  • 视频+jsonl
    • 视频格式支持:mp4、avi。
    • 标注文件格式:jsonl,jsonl文件仅支持UTF-8编码。

音频类

音频

  • 音频+jsonl
    • 音频文件:支持mp3、flac、wav、opus、aac、m4a格式,允许放在根目录或下层目录中。
    • 标注文件格式:可选,格式为UTF-8编码的jsonl文件,每一行描述一个音频文件在数据集中的相对路径以及其它信息。

音频类数据集格式要求

其他类

自定义

支持构建用户自定义场景下所需的数据集类型。支持Alpaca格式数据集。

其他类数据集格式要求

相关文档