数据准备功能说明

功能介绍

在大模型开发过程中，数据的质量和处理效率直接影响模型的性能。然而，开发者常常面临“数据获取难、质量参差不齐、处理效率低”的挑战，这不仅增加了模型训练的成本，还限制了模型的泛化能力。如何高效地准备高质量的训练数据成为了一个亟待解决的问题。ModelArts数据准备功能提供了一站式、全流程的数据处理和管理服务，通过内置的行业级数据处理算子与自动化流水线，系统化的处理数据获取、加工、发布等过程，帮助您将海量、多模态的原始数据，高效转化为高可用、高纯度的训练数据集，提高数据质量和处理效率，显著降低模型训练成本，提升模型泛化能力。

数据准备开发流程

ModelArts平台提供了全流程的数据开发功能，您可使用数据连接、人工校准和智能精炼完成模型数据集的开发。其中智能精炼包含数据处理的全流程，包括数据加工，数据合成等，助力开发者快速生成模型开发所需的数据集。

数据准备整体开发流程如图1所示。

图1 数据准备开发流程
点击放大

数据连接：数据获取是数据工程的第一步，支持将不同来源和不同格式的数据导入平台，并生成“原始数据集”。通过该功能，用户可以轻松将大量数据导入平台，为后续的智能精炼和模型开发做好准备。详见数据连接章节。
人工校准：通过可视化标注界面，对数据集进行人工校准，并一键生成标准化数据集并同步至我的数据，供智能精炼等任务使用。详见人工校准。

智能精炼：智能精炼模块提供了数据加工、数据合成一站式操作，旨在确保原始数据能够满足各种业务需求和模型开发的标准，加工出满足模型开发的数据集，详见智能精炼章节。

数据资产管理

数据资产管理模块为开发者提供了一站式的多种模态数据管理中心。它打破了数据孤岛，实现了从数据接入、版本控制、质量预览到最终调用的全链路闭环管理。ModelArts平台支持管理文本、图像、音频、视频等多种模态的数据，并根据来源不同，划分为平台预置数据资产与用户自定义数据资产两大类，满足从通用能力构建到垂直领域定制的全场景需求。详见数据资产管理章节。

ModelArts平台支持的数据类型

ModelArts平台提供了业界最全面的数据处理功能。包括对文本类、图片类、音频类、视频类、平台格式数据集处理，还提供了自定义数据集功能，支持业界广泛使用的Alpaca和ShareGPT等数据集格式，能够灵活处理多样化的数据。

平台多样化的智能精炼和管理能力，为您提供丰富而全面的数据集，是您开发大模型的利器。

平台支持的数据类型见表1，各类型数据格式详细要求请参考数据集格式要求。

表1 平台支持的数据类型
数据类型	数据内容	支持的文件格式	数据集要求
文本	文档	docx、pdf。	文本类数据集格式要求
	预训练文本	jsonl
	单轮问答	jsonl、csv
	单轮问答（人设）	jsonl、csv
	多轮问答	jsonl
	多轮问答（人设）	jsonl
	问答排序	jsonl、csv
	偏好优化DPO	jsonl
	偏好优化DPO（人设）	jsonl
图片类	图片	图片+jsonl（可选）图片格式支持：jpg、jpeg、png、bmp。 jsonl为非必选文件类型。当存在jsonl文件时，需要保证如下条件： jsonl中索引的图片文件必须存在。 jsonl文件必须位于数据集根目录，且命名为annotation.jsonl。 jsonl文件仅支持UTF-8编码。	图片类数据集格式要求
视频类	视频	mp4、avi	视频类数据集格式要求
视频类	视频+标注	视频+jsonl 视频格式支持：mp4、avi。标注文件格式：jsonl，jsonl文件仅支持UTF-8编码。	视频类数据集格式要求
音频类	音频	音频+jsonl 音频文件：支持mp3、flac、wav、opus、aac、m4a格式，允许放在根目录或下层目录中。标注文件格式：可选，格式为UTF-8编码的jsonl文件，每一行描述一个音频文件在数据集中的相对路径以及其它信息。	音频类数据集格式要求
其他类	自定义	支持构建用户自定义场景下所需的数据集类型。支持主流Alpaca和ShareGPT格式数据集。	其他类数据集格式要求