更新时间:2025-01-05 GMT+08:00
分享

流通图片类数据集

数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。

单个图片类数据集支持发布的格式为:

  • 默认格式:平台默认的格式。
  • 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。

创建文本类数据集流通任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。
  3. 在“创建流通任务”页面,选择数据集模态,如“图片 > 图片+Caption”类型的数据集。
    图1 选择数据集模态
  4. 选择数据集,单击“下一步”。
  5. 在“格式配置”选择发布格式。由于数据工程需要支持对接盘古大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。
    当前支持默认格式、盘古格式:
    • 默认格式:数据工程功能支持的原始格式。
    • 盘古格式:使用盘古大模型训练时所需要使用的数据格式

    如果使用该数据集训练盘古大模型,请将发布格式配置为盘古格式

  6. 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。

    当任务状态显示为“运行成功”时,说明数据流通任务执行成功,生成的“发布数据集”可在“数据工程 > 数据发布 > 发布数据集”中查看。

相关文档