数据准备功能说明
功能介绍
数据决定了大模型的能力上限。ModelArts数据准备功能提供了一站式、全流程的数据处理和管理服务,致力于解决大模型开发中“数据获取难、质量参差不齐、处理效率低”的核心痛点。通过内置的行业级数据处理算子与自动化流水线,系统化的处理数据获取、加工、发布等过程,帮助您将海量、多模态的原始数据,高效转化为高可用、高纯度的训练数据集,提高数据质量和处理效率,显著降低模型训练成本,提升模型泛化能力。
数据准备开发流程
ModelArts平台提供了全流程的数据开发功能,您可使用数据连接和数据精炼完成模型数据集的开发。其中模型精炼包含数据处理的全流程,包括数据加工,数据合成功能。助力开发者快速生成模型开发所需的数据集。
数据准备整体开发流程如图1所示。
- 数据连接:数据获取是数据工程的第一步,支持将不同来源和不同格式的数据导入平台,并生成“原始数据集”。通过该功能,用户可以轻松将大量数据导入平台,为后续的数据精炼和模型开发做好准备。详见数据连接章节。
- 数据精炼:数据精炼模块提供了数据加工、数据合成一站式操作,旨在确保原始数据能够满足各种业务需求和模型开发的标准,加工出满足模型开发的数据集,详见数据精炼章节。
数据资产管理
数据资产管理模块为开发者提供了一站式的多种模态数据管理中心。它打破了数据孤岛,实现了从数据接入、版本控制、质量预览到最终调用的全链路闭环管理。ModelArts平台支持管理文本、图像、音频、视频等多种模态的数据,并根据来源不同,划分为平台预置数据资产与用户自定义数据资产两大类,满足从通用能力构建到垂直领域定制的全场景需求。详见数据资产管理章节。
ModelArts平台支持的数据类型
ModelArts平台提供了业界最全面的数据处理功能。包括对文本类、图片类、音频类、视频类、数据集处理,还提供了自定义数据集功能,支持业界广泛使用的Alpaca和ShareGPT等数据集格式,能够灵活处理多样化的数据。
平台多样化的数据精炼和管理能力,为您提供丰富而全面的数据集,是您开发大模型的利器。
平台支持的数据类型见表1,各类型数据格式详细要求请参考数据集格式要求。
|
数据类型 |
数据内容 |
支持的文件格式 |
数据集要求 |
|---|---|---|---|
|
文本 |
文档 |
docx |
|
|
预训练文本 |
jsonl |
||
|
单轮问答 |
jsonl、csv |
||
|
单轮问答(人设) |
jsonl、csv |
||
|
多轮问答 |
jsonl |
||
|
多轮问答(人设) |
jsonl |
||
|
问答排序 |
jsonl、csv |
||
|
偏好优化DPO |
jsonl |
||
|
偏好优化DPO(人设) |
jsonl |
||
|
图片类 |
图片 |
|
|
|
视频类 |
视频 |
mp4、avi |
|
|
视频+标注 |
|
||
|
音频类 |
音频 |
|
|
|
其他类 |
自定义 |
支持构建用户自定义场景下所需的数据集类型。支持主流Alpaca和ShareGPT格式数据集。 |
