数据工程介绍
数据工程介绍
数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。
数据工程包含的具体功能如下:
- 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台,并生成“原始数据集”。
- 支持的接入方式:通过OBS服务导入数据。
- 支持的数据类型:文本、图片、视频、音频、气象、预测、其他。
- 自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。
通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。
- 数据加工:平台提供了数据加工、数据合成、数据标注、数据配比的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准,生成“加工数据集”。
- 数据加工:数据加工旨在通过使用数据集加工算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的加工算子,以确保数据符合模型训练的标准和业务需求。
- 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。
- 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精度。针对不同数据集平台支持人工标注与AI预标注两种形式。
- 数据配比:将多个数据集按照特定比例关系组合并为一个“加工数据集”的过程,确保数据的多样性、平衡性和代表性。
通过数据加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。
- 数据发布:平台提供了数据发布操作,支持发布不同模态及不同格式的数据集,并生成“发布数据集”。
- 数据管理:平台提供了数据集管理,数据评估操作,旨在管理各类型数据集以及通过数据质量评估确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用。
- 数据集:管理“原始数据集”、“加工数据集”、“发布数据集”等不同类别的数据集。
- 数据评估:数据评估通过对数据集进行系统的质量检查,依据评估标准评估数据的多个维度,旨在发现潜在问题并加以解决。
在集成了数据获取、数据加工、数据发布功能外,平台还支持对原始数据集、加工数据集、发布数据集、数据合成指令进行一站式管理。在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。
平台支持的数据类型
ModelArts Studio大模型开发平台支持的数据类型见表1各类型数据格式详细要求请参考数据集格式要求。
数据类型 |
数据内容 |
支持的文件格式 |
---|---|---|
文本类 |
文档 |
txt、mobi、epub、docx、pdf |
网页 |
html |
|
预训练文本 |
jsonl |
|
单轮问答 |
jsonl、csv |
|
单轮问答(人设) |
jsonl、csv |
|
多轮问答 |
jsonl |
|
多轮问答(人设) |
jsonl |
|
问答排序 |
jsonl、csv |
|
偏好优化DPO |
jsonl |
|
偏好优化DPO(人设) |
jsonl |
|
图片类 |
图片 |
|
图片+Caption |
|
|
图片+QA对 |
|
|
物体检测 |
|
|
图像分类 |
|
|
异常检测 |
|
|
语义分割 |
|
|
姿态估计 |
|
|
实例分割 |
|
|
变化检测 |
|
|
旋转检测 |
|
|
视频类 |
视频 |
mp4、avi |
视频+标注 |
|
|
视频分类 |
文件格式支持视频+txt,视频格式支持:mp4、avi。标注文件格式:txt,视频与标注文件一一对应。 |
|
事件检测 |
|
|
音频 |
音频 |
|
气象类 |
气象数据 |
nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 |
预测类 |
时序分类 |
csv |
时序回归 |
csv |
|
结构化分类 |
csv |
|
结构化回归 |
csv |
|
其他类 |
自定义 |
支持构建用户自定义场景下所需的数据集类型。 |
各类数据支持的操作
各类型数据支持的数据工程操作见表2。