更新时间:2025-01-14 GMT+08:00
分享

数据工程介绍

数据工程介绍

数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。

数据工程包含的具体功能如下:

  • 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台。
    • 支持的接入方式:通过OBS服务导入数据。
    • 支持的数据类型:文本、图片、视频、气象、预测、其他。
    • 自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。

    通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。

  • 数据加工:平台提供了数据清洗、数据合成、数据标注的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。
    • 数据清洗:数据清洗旨在通过使用数据集清洗算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的清洗算子,以确保数据符合模型训练的标准和业务需求。
    • 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。
    • 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精度。针对不同数据集平台支持人工标注与AI预标注两种形式。

      其中,图片Caption、视频Caption标注项支持AI预标注功能。

    通过数据加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。

  • 数据发布:平台提供了数据评估、数据配比、数据流通的发布操作,旨在通过数据质量评估与合理的比例组合,确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用。
    • 数据评估:数据评估通过对数据集进行系统的质量检查,依据评估标准评估数据的多个维度,旨在发现潜在问题并加以解决。
    • 数据配比:将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。
    • 数据流通:将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。

      支持发布的数据集格式为默认格式、盘古格式(适用于训练盘古大模型时)。目前,仅文本类和图片类数据集支持发布为“盘古格式”。

通过集成数据获取、数据加工、数据发布的完整流程,在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。

平台支持的数据类型

ModelArts Studio大模型开发平台支持的数据类型见表1,各类型数据格式详细要求请参考数据集格式要求

表1 平台支持的数据类型

数据类型

数据内容

支持的文件格式

文本类

文档

txt、mobi、epub、docx、pdf

网页

html

预训练文本

jsonl

单轮问答

jsonl、csv

单轮问答(人设)

jsonl、csv

多轮问答

jsonl

多轮问答(人设)

jsonl

问答排序

jsonl、csv

图片类

仅图片

jpg、jpeg、png、bmp、tar包

图片+Caption

  • 图片格式支持:jpg、jpeg、png、bmp,所有图片需保存为tar包。
  • Caption格式支持:jsonl

图片+QA对

  • 图片格式支持:jpg、jpeg、png、bmp,所有图片需保存为tar包。
  • QA对格式支持:jsonl

物体检测

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:xml

图像分类

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:txt

异常检测

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:txt

语义分割

jpg、png

姿态估计

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:json

实例分割

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:xml

变化检测

  • 图片格式支持:jpg、jpeg、bmp
  • 标注格式支持:png

视频分类

图片格式支持:jpg、jpeg、png、bmp

视频类

视频

mp4、avi

事件监测

  • 视频格式支持:mp4、avi,每个视频时长大于128s,FPS>=10
  • 标注格式支持:json

气象类

气象数据

nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2

预测类

时序

csv

回归分类

csv

其他类

用户自定义

支持构建CV场景中包含图片和标注文件的图像分类数据集,如图片+CV标注、视频+CV标注等类型。

各类数据支持的操作

各类型数据支持的数据工程操作见表2

表2 各类数据支持的操作

数据类型

数据获取

数据清洗

数据合成

数据标注

数据评估

数据配比

数据流通

文本类

图片类

-

视频类

-

-

气象类

-

-

-

-

预测类

-

-

-

-

-

其他类

-

-

-

-

-

相关文档