更新时间:2024-09-03 GMT+08:00
分享

创建一个新的数据集

数据集是指用于训练模型或评估的一组相关数据样本。存储在OBS中的数据可以通过数据集的形式放置在到盘古平台中,便于管理。

在创建数据集之前,请先将数据上传至OBS平台。

上传数据至OBS

  1. 登录盘古大模型套件平台。
  2. 在左侧导航栏中选择“数据工程 > 数据管理”,单击界面右上角“创建数据集”。
    图1 数据管理
  3. 在创建数据集弹框中选择“创建一个新的数据集”,单击“创建”。
    图2 创建数据集
  4. 在创建数据集页面,单击“前往OBS”,进入OBS服务页面。
    图3 前往OBS
  5. 在OBS控制台页面,单击界面右上角“创建桶”。
    图4 OBS页面
  6. 创建OBS桶时,桶区域需要与盘古大模型区域保持一致。其余配置参数可以使用默认值,详细OBS桶参数说明请参见OBS用户指南
    图5 创建OBS桶
  7. 参数填选完成后,单击“立即创建”。创建好的OBS桶将显示在桶列表中。
    图6 OBS页面
  8. 在OBS中创建文件目录,并在目录中上传数据文件。

创建一个新的数据集

创建数据集前,需按要求将数据文件上传至OBS。

  1. 登录盘古大模型套件平台,左侧导航栏中选择“数据工程 > 数据管理”,单击界面右上角“创建数据集”。
    图7 数据管理
  2. 在创建数据集弹出框中选择“创建一个新的数据集”,单击“创建”。
    图8 创建数据集
  3. 在新建数据集页面,依据需要进行的训练任务,选择导入数据,填写基本信息。
    • 导入数据

      选择模型类型、训练类型、数据类型、导入格式以及数据来源。

      表1 数据集路径说明

      数据集训练类型

      数据集所在OBS路径

      自监督训练数据集

      创建数据集时,需要指定数据文件所在的文件夹。

      有监督微调数据集

      创建数据集时,可以指定数据文件或者数据文件所在的文件夹。

      评测数据集

      创建数据集时,可以指定数据文件或者数据文件所在的文件夹。

    • 基本信息

      填写数据集名称与描述,选择行业、语言和数据标签。

      图9 填写基本信息
  4. 参数填选完成后,单击“立即创建”。

    创建好的数据集将显示在数据集列表中。

相关文档