更新时间:2025-07-28 GMT+08:00

数据集发布场景介绍

数据发布介绍

ModelArts Studio大模型开发平台提供的数据发布功能涵盖数据评估和数据发布操作,旨在通过数据质量评估,确保数据满足大模型训练的多样性、平衡性和代表性需求,促进数据的高效流通和应用。

数据发布不仅包括将数据发布为适合使用的格式,还要求根据任务需求评估数据集效果,确保数据集在规模、质量和内容上符合模型训练的标准。

  • 数据评估

    平台预置了多种数据类型的基础评估标准,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。

  • 数据发布

    数据发布是将数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。支持的发布格式为标准格式、盘古格式(适用于训练盘古大模型时)。目前,仅文本类和图片类数据集支持发布为“盘古格式”。

通过这些功能,平台能够帮助用户科学管理和发布数据集,确保数据集质量符合大模型训练的需求,从而提高后续模型训练的效果。

数据发布意义

数据发布不仅仅是将数据转换为不同格式,还包括根据任务需求评估数据集效果,确保数据在规模、质量和内容上满足训练标准。具体而言,数据发布具备以下几个重要意义:

  • 多格式支持

    对于文本类、图片类数据集,平台支持多种数据发布格式,包括“标准格式”、“盘古格式”,以满足不同训练任务的需求。通过这些格式的转换,用户可以确保数据与特定模型(如盘古大模型)兼容,并优化训练效果。

  • 提高训练效率

    发布符合标准的数据集可以大幅提升数据处理效率,减少后续调整工作,帮助用户快速进入模型训练阶段。

数据集发布是数据工程中的关键环节,确保数据集符合模型训练要求。通过平台提供的数据发布功能,用户能够根据具体任务需求,灵活选择数据发布格式,保证数据的兼容性与一致性,从而为后续模型训练和应用部署打下坚实基础。

支持数据发布的数据集类型

支持数据发布的数据集类型见表1

表1 支持数据发布的数据集类型

数据类型

数据评估

数据发布

文本类

图片类

视频类

气象类

-

预测类

-

其他类

-

ModelArts Studio大模型开发平台支持将文本类、图片类数据集发布为两种格式:

  • 标准格式:适用于广泛的数据使用场景,满足大多数模型训练的标准需求。该格式的数据集将发布到资产中,但下游模型开发不可见。
  • 盘古格式:专为盘古大模型训练设计的格式,确保数据集在盘古模型训练中的兼容性和一致性。该格式的数据集将被用于ModelArts Studio大模型开发平台的模型开发功能使用。

除文本类、图片类数据集外,其余类型的数据集当前仅支持发布为标准格式。