更新时间:2024-09-03 GMT+08:00
分享

创建一个训练数据集

训练数据集是用于模型训练的实际数据集。通常,通过创建一个新的数据集步骤,可以生成包含某个特定场景数据的数据集。例如,这个数据集可能只包含用于训练摘要提取功能的数据。然而,在实际模型训练中,通常需要结合多种任务类型的数据,而不仅限于单一场景的数据。因此,实际的训练会混合不同类型的数据。例如,为防止模型在训练后出现通用问答能力下降,会混入一定的通用数据。

训练数据集常见业务场景如下:

  • 当创建训练数据集时,可以将不同数据集合并成一个训练集,并且可以控制各数据集的数据比例。这对于用户数据集较小的情况非常有用,因为可以通过组合多个数据集来进行训练。
  • 当需要对模型进行综合训练时,会组合多种数据集,以提高模型处理不同数据类型的能力。
  • 在准备自监督训练数据和有监督微调数据时,除行业数据外,建议混入一定比例的通用数据,防止模型在经过训练后出现通用问答能力下降的情况。
  • 行业数据 : 通用数据的比例按业内经验有1 : 1、1 : 5。实际训练过程中,行业数据和通用数据和的配比需要根据具体情况进行权衡,需要通过多次训练进行调整,既要考虑模型的通用能力,也要考虑模型在特定领域的性能。

创建一个训练数据集

  1. 登录盘古大模型套件平台。
  2. 在左侧导航栏中选择“数据工程 > 数据管理”,单击界面右上角“创建数据集”。
    图1 数据管理
  3. 在创建数据集弹出框中选择“创建一个训练数据集”,单击“创建”。
    图2 创建训练数据集

    创建训练数据集的常见业务场景包括:

    • 当用户的数据集较小时,可以将多个数据集组合起来进行训练。
    • 需要进行模型的综合训练时,会组合多样的数据集,以提升模型处理不同类型数据的能力。例如,通过组合数据集,NLP模型在训练后可以同时具备文本生成、情感分析等多种能力。
  4. 进入训练数据集页面后,需要进行训练配置、数据配置和基本配置。
    • 训练配置

      选择模型类型、训练类型以及基础模型。

    • 数据配置
      选择训练数据集和配比类型,设置训练数据集配比,详情请参考数据配比功能介绍

      在训练数据集配比完成后,在单击“创建”或后续修改保存时,会对数据集的有效数据进行统计,确保满足模型训练的要求。

      图3 数据配置
    • 基本配置
      填写训练数据集名称和描述,选择数据标签。
      图4 基本配置
  5. 参数填选完成后,单击“立即创建”。

数据配比功能介绍

用户针对业务场景,可以通过数据配比功能,自由组合多个数据集,并控制数据占比。

  • 数据集来源:用户自己创建并且已经发布的数据集。
  • 数据集组合:选择多个数据集,并且可以指定数据之间的配比和条数,最大支持20个。
    • 配比的作用:支持用户灵活调整数据集的比例。

      比例:用户自己创建的数据集,默认1:1:1的方式。例如,3个数据集D1(100GB)、D2(50GB)、D3(200GB),配比按照最大比例去配比,即为D1(50GB)、D2(50GB)、D3(50GB),则3*50=150GB,此时用户可以控制最大的数据量,限制数据量大小,如100GB。

      表1 配置比例

      配置比例

      数据集大小上限500GB

      第一阶段

      第二阶段

      -

      数据集

      原始大小

      默认值

      手动修改

      实际大小

      D1

      100GB

      1

      1

      100GB

      D2

      50GB

      1

      2

      50GB

      D3

      200GB

      1

      1

      200GB

      训练数据集PD1

      /

      15

      15

      750GB

    • 条数:用户指定每个数据集需要提供的条数;如果某个数据集的条数不满足用户需求,则提示用户重新输入,避免用户无感配置失败。

      条数:不提供配比,默认全都选上。

      表2 配置条数

      配置条数

      数据集大小上限500GB

      第一阶段

      第二阶段

      -

      数据集

      原始大小

      默认值

      手动修改

      实际条数

      D1

      100

      100

      100

      53

      D2

      50

      50

      50

      27

      D3

      200

      200

      100

      53

      训练数据集PD1

      /

      /

      1250

      667

相关文档