更新时间:2025-07-30 GMT+08:00
分享

数据工程介绍

数据工程介绍

数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。

数据工程包含的具体功能如下:

  • 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台,并生成“原始数据集”。
    • 支持的接入方式:通过OBS服务导入数据。
    • 支持的数据类型:文本、图片、视频、音频、气象、预测、其他。
    • 自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。

    通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。

  • 数据加工:平台提供了数据加工、数据合成、数据标注、数据配比的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准,生成“加工数据集”。
    • 数据加工:数据加工旨在通过使用数据集加工算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的加工算子,以确保数据符合模型训练的标准和业务需求。
    • 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。
    • 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精度。针对不同数据集平台支持人工标注与AI预标注两种形式。

      其中,图片Caption、视频Caption标注项支持AI预标注功能。

    • 数据配比:将多个数据集按照特定比例关系组合并为一个“加工数据集”的过程,确保数据的多样性、平衡性和代表性。

    通过数据加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。

  • 数据发布:平台提供了数据发布操作,支持发布不同模态及不同格式的数据集,并生成“发布数据集”。
    • 数据发布:将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。

      支持发布的数据集格式为标准格式、盘古格式(适用于训练盘古大模型时)。目前,仅文本类和图片类数据集支持发布为“盘古格式”。

  • 数据管理:平台提供了数据集管理,数据评估操作,旨在管理各类型数据集以及通过数据质量评估确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用。
    • 数据集:管理“原始数据集”、“加工数据集”、“发布数据集”等不同类别的数据集。
    • 数据评估:数据评估通过对数据集进行系统的质量检查,依据评估标准评估数据的多个维度,旨在发现潜在问题并加以解决。

在集成了数据获取、数据加工、数据发布功能外,平台还支持对原始数据集、加工数据集、发布数据集、数据合成指令进行一站式管理。在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。

平台支持的数据类型

ModelArts Studio大模型开发平台支持的数据类型见表1各类型数据格式详细要求请参考数据集格式要求

表1 平台支持的数据类型

数据类型

数据内容

支持的文件格式

文本类

文档

txt、mobi、epub、docx、pdf

网页

html

预训练文本

jsonl

单轮问答

jsonl、csv

单轮问答(人设)

jsonl、csv

多轮问答

jsonl

多轮问答(人设)

jsonl

问答排序

jsonl、csv

偏好优化DPO

jsonl

偏好优化DPO(人设)

jsonl

图片类

图片

  • 图片格式支持:jpg、jpeg、png、bmp。支持图片和jsonl文件导入,jsonl为非必须文件类型。
  • 压缩包格式:所有图片保存为tar包。图片格式支持:jpg、jpeg、png、bmp。支持图片和jsonl文件导入,jsonl为非必须文件类型。
  • 标注文件格式:可选,当存在jsonl文件时,图片文本保存为一份jsonl文件,jsonl文件中图片名称必须要与tar包中的图片名称一致。注意:jsonl文件仅支持UTF-8编码。

图片+Caption

  • 图片格式支持:jpg、jpeg、png、bmp,所有图片需保存为tar包。
  • Caption格式支持:jsonl,jsonl文件仅支持UTF-8编码。

图片+QA对

  • 图片格式支持:jpg、jpeg、png、bmp,所有图片需保存为tar包。
  • QA对格式支持:jsonl,jsonl文件仅支持UTF-8编码。

物体检测

  • 图片格式支持:jpg、jpeg、png、bmp、tif、tiff
  • 标注格式支持:xml

图像分类

  • 图片格式支持:jpg、jpeg、png、bmp、tif、tiff
  • 标注格式支持:txt

异常检测

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:txt

语义分割

  • 图片+xml:
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注文件格式:xml
  • 原始图片+标注图片+json
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注文件格式:标注图片+json
  • 原始图片+标注图片+txt
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注文件格式:标注图片+txt
  • 原始图片+标注图片:原始/标注图片格式支持:jpg、jpeg、png、bmp
  • 图片+png

姿态估计

  • 图片+json(一对一)
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注格式支持:json
  • 图片+json(多对一)
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注格式支持:json

实例分割

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:xml

变化检测

  • 图片+xml
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注文件格式:xml
  • 原始图片+标注图片+json
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注文件格式:png+json
  • 原始图片+标注图片
    • 图片格式支持:jpg、jpeg、png、bmp
    • 标注文件格式:png

旋转检测

  • 图片格式支持:jpg、jpeg、png、bmp
  • 标注格式支持:xml

视频类

视频

mp4、avi

视频+标注

  • 视频格式支持:mp4、avi。
  • 标注文件格式:jsonl,jsonl文件仅支持UTF-8编码。

视频分类

文件格式支持视频+txt,视频格式支持:mp4、avi。标注文件格式:txt,视频与标注文件一一对应。

事件检测

  • 图片+json(一对一)
    • 视频格式支持:mp4、avi,每个视频时长大于128s,FPS>=10。
    • 标注文件格式:json。
  • 图片+json(多对一)
    • 视频格式支持:mp4、avi,每个视频时长大于128s,FPS>=10。
    • 标注文件格式:json。

音频

音频

  • 音频文件:支持mp3、flac、wav、opus、aac、m4a格式,允许放在根目录或下层目录中。
  • 标注文件格式:可选,格式为UTF-8编码的jsonl文件,每一行描述一个音频文件在数据集中的相对路径以及其它信息。

气象类

气象数据

nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2

预测类

时序分类

csv

时序回归

csv

结构化分类

csv

结构化回归

csv

其他类

自定义

支持构建用户自定义场景下所需的数据集类型。

各类数据支持的操作

各类型数据支持的数据工程操作见表2

表2 各类数据支持的操作

数据类型

数据获取

数据加工

数据合成

数据标注

数据配比

数据评估

数据发布

文本类

图片类

-

视频类

-

音频类

-

-

-

气象类

-

-

-

-

预测类

-

-

-

其他类

-

-

-

-

相关文档