更新时间:2024-12-02 GMT+08:00
分享

数据工程介绍

数据工程简介

数据工程是ModelArts Studio大模型开发平台为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、标注、评估和发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。

数据工程所包含的具体功能如下:

  • 数据获取:数据获取是数据工程的第一步,涉及从不同来源和格式的数据导入到平台。ModelArts Studio大模型开发平台提供多种高效灵活的数据接入方式,支持本地上传、通过OBS服务将数据导入平台。平台支持的多种数据类型包括文本、图片、视频等,能够满足不同行业和业务需求的多样化数据接入方式。用户还可以根据业务需求上传自定义格式的数据,极大地提升了数据获取的灵活性和可扩展性。通过这一功能,用户能够方便快捷地将大量数据导入平台,为后续的数据处理和模型训练打下良好的基础。
  • 数据加工:数据加工是确保数据质量的关键步骤。平台提供一系列数据清洗、过滤、转换等加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。针对不同类型的数据集,平台设计了专用的加工算子(即为特定数据处理任务预定义的操作模块,如文本去重、格式转换、异常处理等),通过这些算子能够高效地处理各类数据。对于文本类数据集,平台还支持用户自定义加工算子,以进一步满足特定场景下的需求。目前这一自定义算子功能仅适用于文本类数据集。通过加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。
  • 数据标注:在大模型的训练中,数据标注至关重要。平台不仅支持对无标签数据进行手动标注或重新标注,还支持对图片、视频类数据集通过AI预标注技术提升标注效率。AI预标注功能通过自动化的方式为数据集生成初步的标签,用户可以在此基础上进行人工审核和修正,从而大幅度减少人工标注的工作量和时间成本。此外,AI预标注不仅提高了标注效率,还能减少人为错误,提高标注的一致性和准确性。标注质量的提高直接增强了训练数据的有效性,确保训练模型时能获得更高质量的学习数据,从而推动模型性能的提升。
  • 数据评估:数据的质量直接决定了大模型的表现,因此,数据质量评估在整个数据工程中占有重要地位。ModelArts Studio大模型开发平台提供了强大的数据质量评估工具,能够对处理后的数据集进行深入分析,评估其准确性、完整性和一致性。平台生成详细的数据质量评估报告,帮助用户全面了解数据的健康状况。数据评估结果能够为后续的数据优化提供明确指导,帮助用户在数据发布前进行最后的质量把关,确保数据集的可靠性,为大模型的训练提供高质量的基础数据。
  • 数据发布:数据发布是数据工程流程的最后一步。平台支持将经过加工、标注和评估的数据集以多种格式进行发布,包括默认格式、盘古格式(适用于训练盘古大模型时)。这些格式支持用户在不同的AI平台和业务场景中使用,确保数据在不同模型训练系统中的兼容性与流畅使用。目前,发布多种数据集格式的功能仅支持文本类和图片类数据集。

数据工程架构图如下:

图1 数据工程架构图

通过集成数据获取、加工、标注、评估和发布的完整流程,在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。

平台支持的数据类型

ModelArts Studio大模型开发平台支持的数据类型见表1

表1 平台支持的数据类型

数据类型

数据内容

数据文件格式要求

文本类

文档

支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求

网页

支持html,详见文本类数据集格式要求

预训练文本

支持jsonl,详见文本类数据集格式要求

单轮问答

支持jsonl、csv,详见文本类数据集格式要求

单轮问答(人设)

支持jsonl、csv,详见文本类数据集格式要求

多轮问答

支持jsonl,详见文本类数据集格式要求

多轮问答(人设)

支持jsonl,详见文本类数据集格式要求

问答排序

支持jsonl、csv,详见文本类数据集格式要求

图片类

图片

支持图片、tar,详见图片类数据集格式要求

图片+Caption

图片支持tar,Caption支持jsonl,详见图片类数据集格式要求

图片+QA对

图片支持tar,QA对支持jsonl,详见图片类数据集格式要求

视频类

视频

支持mp4、avi,详见视频类数据集格式要求

气象类

海洋气象

支持nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2,详见气象类数据集格式要求

预测类

时序

支持csv,详见预测类数据集格式要求

回归分类

支持csv,详见预测类数据集格式要求

其他类

用户自定义

支持构建CV场景中包含图片和标注文件的图像分类数据集,如图片+CV标注、视频+CV标注等类型,详见其他类数据集格式要求

各类数据支持的操作

各类型数据支持的数据工程操作见表2

表2 各类数据支持的操作

数据类型

数据获取

数据加工

数据标注

数据评估

数据发布

文本类

图片类

视频类

气象类

-

-

预测类

-

-

-

其他类

-

-

-

相关文档