更新时间:2025-06-30 GMT+08:00
创建加工任务
解释说明
数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对数据进行预处理操作,以确保数据符合模型训练的标准和业务需求。
当前支持加工的数据集类型为:文本类、视频类、图片类、气象类。
操作步骤
- 在“创建加工任务”页面,选择需要加工的数据集。
- 单击“下一步”,进入“加工步骤编排”页面,左侧列表为当前数据集可选择的加工算子。
- 加工步骤编排完成后,单击“下一步”进入任务配置页面。
- 参考表1填写资源配置参数。除了如下参数配置外,支持用户自定义参数配置。
表1 参数配置 参数名称
参数说明
numExecutors
Executor的数量,默认值2。
numExecutors * executorMemory最小值为4,最大值为16。
executorCores
每个Executor进程使用的CPU内核数量,默认值2。
numExecutors * executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。
executorMemory
每个Executor进程使用的内存数量,默认值4。
executorCores和executorMemory的比例需要在1:2~1:4之间。
driverCores
驱动程序进程使用的CPU内核数量,默认值2。
driverCores和driverMemory的比例需要在1:2~1:4之间。
driverMemory
驱动程序进程使用的内存数量,默认值4。
driverCores和driverMemory的比例需要在1:2~1:4之间。
- 自动生成加工数据集,启用后任务运行成功自动生成加工数据集,可用于下游数据集发布;如关闭需在加工任务列表操作生成。
- 参考表1填写资源配置参数。除了如下参数配置外,支持用户自定义参数配置。
- 单击右下角“启动加工”,将启动加工任务。