更新时间:2025-06-30 GMT+08:00

创建加工任务

解释说明

数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对数据进行预处理操作,以确保数据符合模型训练的标准和业务需求。

当前支持加工的数据集类型为:文本类、视频类、图片类、气象类。

操作步骤

  1. 在“创建加工任务”页面,选择需要加工的数据集。
  2. 单击“下一步”,进入“加工步骤编排”页面,左侧列表为当前数据集可选择的加工算子。
    1. 在左侧“添加算子”分页勾选所需算子。
    2. 在右侧“加工步骤编排”页面配置各算子参数,可拖动算子以调整执行顺序。
    3. 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可直接单击“选择加工模板”进行使用。

      若选择使用加工模板,将删除当前已编排的加工步骤。

  3. 加工步骤编排完成后,单击“下一步”进入任务配置页面。
    • 参考表1填写资源配置参数。除了如下参数配置外,支持用户自定义参数配置。
      表1 参数配置

      参数名称

      参数说明

      numExecutors

      Executor的数量,默认值2。

      numExecutors * executorMemory最小值为4,最大值为16。

      executorCores

      每个Executor进程使用的CPU内核数量,默认值2。

      numExecutors * executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。

      executorMemory

      每个Executor进程使用的内存数量,默认值4。

      executorCores和executorMemory的比例需要在1:2~1:4之间。

      driverCores

      驱动程序进程使用的CPU内核数量,默认值2。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

      driverMemory

      驱动程序进程使用的内存数量,默认值4。

      driverCores和driverMemory的比例需要在1:2~1:4之间。

    • 自动生成加工数据集,启用后任务运行成功自动生成加工数据集,可用于下游数据集发布;如关闭需在加工任务列表操作生成。

      需要填写数据集名称、描述和扩展信息(扩展信息为可选项,主要包括行业、语言和自定义信息)。

  4. 单击右下角“启动加工”,将启动加工任务。