文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发三方大模型/ 使用数据工程构建三方大模型数据集
更新时间:2025-07-30 GMT+08:00
分享

使用数据工程构建三方大模型数据集

构建三方大模型数据集流程

在ModelArts Studio平台中,使用数据工程构建三方大模型数据集流程见表1

表1 三方大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务或本地的数据导入至平台统一管理,用于后续加工或发布操作。

说明:执行导入操作时,数据集类型选择“其他”。

导入数据至盘古平台

加工其他类数据集

加工其他类数据集

通过自定义加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。

加工其他类数据集

发布其他类数据集

发布其他类数据集

数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

发布其他类数据集

构建三方大模型数据集步骤

在ModelArts Studio大模型开发平台中,使用数据工程构建三方大模型数据集流程可参考表1

创建导入任务

创建导入任务前,请先按照上文要求提前准备数据。

平台支持使用OBS服务导入数据,请详见通过控制台快速使用OBS

创建导入任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击空间名称进入操作空间。
    图1 我的空间
  2. 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
  3. 选择“其他”类型的数据集,并选择训练数据所在的OBS存储位置。
  4. 单击“立即创建”创建数据集。
  5. 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
  6. 选择“其他”类型的数据集,并勾选创建的数据集。单击“下一步”。设置数据用途、数据集可见性,填写数据集名称、描述,设置扩展信息后(可选),单击“确定”进行数据集发布操作。

相关文档