更新时间:2025-11-04 GMT+08:00

数据工程介绍

数据工程介绍

数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。

数据工程包含的具体功能如下:

  • 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台,并生成“原始数据集”。
    • 支持的接入方式:通过OBS服务导入数据。
    • 支持的数据类型:文本、其他。
    • 自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。

    通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。

  • 数据加工:平台提供了数据加工、数据合成、数据标注、数据配比的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准,生成“加工数据集”。
    • 数据加工:数据加工旨在通过使用数据集加工算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的加工算子,以确保数据符合模型训练的标准和业务需求,比如通过加工算子做数据预处理时,可以将文本中的多余字符去除、图片尺寸调整等,使之符合盘古大模型训练的格式要求。
    • 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,生成新的数据,比如根据给定的文本生成(带人设的)单轮问答。在数据量不足的情况下,这些新的数据样本能够帮助模型更好的学习和泛化。
    • 数据标注:数据标注旨在为无标签的数据集添加准确的标签,帮助模型理解输入与输出之间的关系,从而进行有效的学习和预测,标注数据的质量直接影响模型的训练效果和精度。
    • 数据配比:将多个数据集按照特定比例关系组合并为一个“加工数据集”的过程,确保数据的多样性、平衡性和代表性。

    通过数据加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。

  • 数据发布:平台提供了数据发布操作,支持发布不同模态及不同格式的数据集,并生成“发布数据集”。
    • 数据发布:将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。

      支持发布的数据集格式为标准格式、盘古格式(适用于训练盘古大模型时)。目前,仅文本类和图片类数据集支持发布为“盘古格式”。

  • 数据管理:平台提供了数据集管理,数据评估操作,旨在管理各类型数据集以及通过数据质量评估确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用。
    • 数据集:管理“原始数据集”、“加工数据集”、“发布数据集”等不同类别的数据集。
    • 数据评估:数据评估通过对数据集进行系统的质量检查,依据评估标准评估数据的多个维度,旨在发现潜在问题并加以解决。

在集成了数据获取、数据加工、数据发布功能外,平台还支持对原始数据集、加工数据集、发布数据集、数据合成指令进行一站式管理。在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。

平台支持的数据类型

ModelArts Studio大模型开发平台支持的数据类型见表1各类型数据格式详细要求请参考数据集格式要求

表1 平台支持的数据类型

数据类型

数据内容

支持的文件格式

文本类

文档

txt、mobi、epub、docx、pdf。

网页

html

预训练文本

jsonl

单轮问答

jsonl、csv

单轮问答(人设)

jsonl、csv

多轮问答

jsonl

多轮问答(人设)

jsonl

问答排序

jsonl、csv

偏好优化DPO

jsonl

偏好优化DPO(人设)

jsonl

其他类

自定义

支持构建用户自定义场景下所需的数据集类型。

各类数据支持的操作

各类型数据支持的数据工程操作见表2

表2 各类数据支持的操作

数据类型

数据获取

数据加工

数据合成

数据标注

数据配比

数据评估

数据发布

文本类

其他类

-

-

-

-