更新时间:2025-07-02 GMT+08:00

配比图片类数据集

数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。

如果单个数据集已满足您的需求,可跳过此章节至发布图片类数据集

创建图片类数据集配比任务

创建图片类数据集配比任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 配比任务”,单击界面右上角“创建配比任务”。
  3. 在“数据集选择”页签选择需要配比的图片类数据集(至少选择两个),单击“下一步”。
  4. 在“数据配比”页面,可以设置不同数据集的配比数量,单击“下一步”。
  5. 数据配比完成后,单击右下角“下一步”,进行资源配置,并选择是否勾选自动生成加工数据集。
    • 资源配置

      单击展开资源配置,可以设置任务资源 。也支持自定义参数配置,单击“添加参数”,输入参数名称和参数值。

      表1 参数配置

      参数名称

      参数说明

      numExecutors

      Executor的数量,默认值2。

      numExecutors * executorMemory最小值为4,最大值为16。

      executorCores

      每个Executor进程使用的CPU内核数量,默认值2。

      numExecutors * executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。

      executorMemory

      每个Executor进程使用的内存数量,默认值4。

      executorCores和executorMemory的比例需要在1:2~1:4之间。

      driverCores

      驱动程序进程使用的CPU内核数量,默认值2。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

      driverMemory

      驱动程序进程使用的内存数量,默认值4。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

      图2 资源配置
    • 自动生成加工数据集

      勾选,配置生成加工数据集的信息,如图3;单击右下角“确定”,平台将启动配比任务。配比任务运行成功后自动生成加工数据集。

      不勾选,单击右下角“确定”,平台将启动配比任务。配比任务运行成功后手动生成加工数据集。

      图3 自动生成加工数据集
    • 扩展信息(可选)

      可选择行业、语言信息,或自定义数据集属性。

      图4 扩展信息
  6. 单击“确定”,页面将返回至“数据配比”页面,配比任务运行成功后,状态将显示为“运行成功”。
  7. 单击操作列“生成”,将生成“发布数据集”。

    发布数据集可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。