数据工程介绍
数据工程介绍
数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。
数据工程包含的具体功能如下:
- 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台。
- 支持的接入方式:通过OBS服务导入数据。
- 支持的数据类型:文本、图片、视频、气象、预测、其他。
- 自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。
通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。
- 数据加工:平台提供了数据清洗、数据合成、数据标注的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。
- 数据清洗:数据清洗旨在通过使用数据集清洗算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的清洗算子,以确保数据符合模型训练的标准和业务需求。
- 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。
- 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精度。针对不同数据集平台支持人工标注与AI预标注两种形式。
通过数据加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。
- 数据发布:平台提供了数据评估、数据配比、数据流通的发布操作,旨在通过数据质量评估与合理的比例组合,确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用。
通过集成数据获取、数据加工、数据发布的完整流程,在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。
平台支持的数据类型
ModelArts Studio大模型开发平台支持的数据类型见表1,各类型数据格式详细要求请参考数据集格式要求。
数据类型 |
数据内容 |
支持的文件格式 |
---|---|---|
文本类 |
文档 |
txt、mobi、epub、docx、pdf |
网页 |
html |
|
预训练文本 |
jsonl |
|
单轮问答 |
jsonl、csv |
|
单轮问答(人设) |
jsonl、csv |
|
多轮问答 |
jsonl |
|
多轮问答(人设) |
jsonl |
|
问答排序 |
jsonl、csv |
|
图片类 |
仅图片 |
jpg、jpeg、png、bmp、tar包 |
图片+Caption |
|
|
图片+QA对 |
|
|
物体检测 |
|
|
图像分类 |
|
|
异常检测 |
|
|
语义分割 |
jpg、png |
|
姿态估计 |
|
|
实例分割 |
|
|
变化检测 |
|
|
视频分类 |
图片格式支持:jpg、jpeg、png、bmp |
|
视频类 |
视频 |
mp4、avi |
事件监测 |
|
|
气象类 |
气象数据 |
nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 |
预测类 |
时序 |
csv |
回归分类 |
csv |
|
其他类 |
用户自定义 |
支持构建CV场景中包含图片和标注文件的图像分类数据集,如图片+CV标注、视频+CV标注等类型。 |
各类数据支持的操作
各类型数据支持的数据工程操作见表2。