更新时间:2025-07-02 GMT+08:00
发布图片类数据集
数据发布是将数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。
图片类数据集支持发布的格式为:
- 标准格式:如图1,平台默认的格式。该格式的数据集可发布到资产中,但下游模型开发不可见。
- 盘古格式:如图2,训练盘古大模型时,需要将数据集格式发布为“盘古格式”,该数据集将被用于ModelArts Studio大模型开发平台的模型开发中使用。
创建图片类数据集发布任务
创建图片类数据集发布任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图3 我的空间
- 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
- 在“创建发布任务”页面,选择数据集模态,如“图片 > 图片+Caption”类型的数据集。
图4 选择数据集模态
- 选择数据集,单击“下一步”。
- 在“基本配置”中选择数据用途、数据集可见性、适用场景。
由于数据工程需要支持对接盘古大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。
当前支持标准格式、盘古格式:- 标准格式:数据工程功能支持的原始格式。该格式的数据集可发布到资产中,但下游模型开发不可见。
- 盘古格式:使用盘古大模型训练时所需要使用的数据格式,该数据集将被用于ModelArts Studio大模型开发平台的模型开发中使用。
如果使用该数据集训练盘古大模型,请将发布格式配置为盘古格式。
- 根据数据集是否进行拆分,勾选“数据集拆分”。如勾选,设置好训练集和验证集的比例,如图5所示:
- 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。
当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。
- 单击任务id,可以查看发布任务详情。发布任务详情界面包含“基本信息”和“日志管理”2个tab页,其中基本信息又包含“任务详情”、“配置信息”、“数据来源”、“生成数据集”几个部分。在“生成数据集”表格的记录数列中,展示训练集和验证集各自的数量,如图7所示。
图6 查看任务详情
父主题: 发布图片类数据集