更新时间:2025-07-30 GMT+08:00
分享

加工图片类数据集

加工图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台

创建图片类数据集加工任务

创建图片类数据集加工任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”,单击界面右上角“创建加工任务”。
  3. 在“创建加工任务”页面,选择需要加工的图片类数据集,单击“下一步”。
  4. 进入“加工步骤编排”页面。对于图片类数据集,可选择的加工算子请参见表1
    1. 在左侧“添加算子”分页勾选所需算子。
    2. 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“”以调整算子执行顺序。
      图2 算子编排
    3. 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可直接单击“选择加工模板”进行使用。

      若选择使用加工模板,将删除当前已编排的加工步骤。

      图3 选择加工模板
  5. 加工步骤编排完成后,单击“下一步”进入“任务配置界面”
    • 资源配置
      下拉高级设置,可以设置任务资源 。也支持自定义参数配置,单击“添加参数”,输入参数名称和参数值。
      图4 资源配置
      表1 参数配置

      参数名称

      参数说明

      numExecutors

      Executor的数量,默认值2。Executor是运行在工作节点上的进程,它负责执行具体的task任务,并将计算结果返回给Driver。每个Executor每个核同时能跑一个task任务,所以增加了Executor的个数相当于增大了任务的并发度。在资源充足的情况下,可以相应增加Executor的个数,以提高运行效率。

      numExecutors * executorMemory最小值为4,最大值为16。

      executorCores

      每个Executor进程使用的CPU内核数量,默认值2。每个Executor多个核同时能跑多个task任务,相当于增大了任务的并发度。但是由于所有核共用Executor的内存,所以要在内存和核数之间做好平衡。

      numExecutors * executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。

      executorMemory

      每个Executor进程使用的内存数量,默认值4。Executor的内存主要用于任务执行、通信等。当一个任务很大的时候,可能需要较多资源,因而内存也可以做相应的增加;当一个任务较小运行较快时,就可以增大并发度减少内存。

      executorCores和executorMemory的比例需要在1:2~1:4之间。

      driverCores

      驱动程序进程使用的CPU内核数量,默认值2。Driver负责任务的调度,和Executor之间的消息通信。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

      driverMemory

      驱动程序进程使用的内存数量,默认值4。Driver负责任务的调度,和Executor之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需要相应增大。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

    • 自动生成加工数据集

      勾选,配置生成加工数据集的信息,如图5;单击右下角“确定”,平台将启动加工任务。加工任务运行成功后自动生成加工数据集。

      不勾选,单击右下角“确定”,平台将启动加工任务。加工任务运行成功后需要手动生成加工数据集。
      图5 自动生成加工数据集
    • 扩展信息(可选)
      可选择行业、语言信息,或自定义数据集属性。
      图6 扩展信息
  6. 单击“启动加工”。当数据加工任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成加工。
    • 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。

相关文档