更新时间:2023-10-27 GMT+08:00

开发实时处理单任务DLI Spark作业

前提条件

参见新建作业创建一个实时处理的单任务DLI Spark作业。

配置DLI Spark作业

表1 配置属性参数

参数

是否必选

说明

作业名称

输入DLI Spark作业名称。

作业名称只能包含英文字母、数字、下划线和中划线,且长度为1~64个字符。

DLI队列

选择DLI队列。

Spark版本

  • 2.3.2
  • 2.4.5
  • 3.1.1

作业特性

用户作业使用的Spark镜像类型(当前支持基础型、AI增强型和自定义的Spark镜像)。

  • 基础型
  • AI增强型
  • 自定义镜像

    当选择“自定义镜像”时,请选择自定义的镜像名称,版本号系统自动展示。您可以前往容器镜像服务进行设置。

作业运行资源

  • 8核32G内存
  • 16核64G内存
  • 32核128G内存

作业主类

该参数表示作业的Java/Scala主类。

Spark程序资源包

该参数表示Spark程序依赖的资源包。

资源类型

  • OBS路径
  • DLI程序包

DLI程序包:作业执行前,会将资源包文件上传到DLI资源管理。

OBS路径:作业执行时,不会上传资源包文件到DLI资源管理,文件的OBS路径会作为启动作业消息体的一部分,推荐使用该方式。

分组设置

当“资源类型”选择“DLI程序包”时,才需要配置该参数。

将Spark程序资源包上传到指定的分组中,主Jar包和依赖包会上传到同一个分组中。

  • 已有分组:选择已有的分组
  • 创建新分组:创建新的分组,分组名称只能包含英文字母、数字、点号、中划线和下划线。
  • 不分组

主类入口参数

配置该参数时,多个参数请以Enter键进行分隔。

Spark作业运行参数

配置该参数时,输入格式为key=value的参数,多个参数请以Enter键进行分隔。

Module名称

选择Module名称,支持选择多个。

访问元数据

访问元数据的开关。

如果需要在DLI Spark作业中访问由DLI SQL作业创建的OBS表,就要打开访问元数据开关。

表2 配置高级参数

参数

是否必选

说明

作业状态轮询时间(秒)

设置轮询时间(30~60秒、120秒、180秒、240秒、300秒),每隔x秒查询一次作业是否执行完成。

作业运行过程中,根据设置的作业状态轮询时间查询作业运行状态。

最长等待时间

设置作业执行的超时时间,如果作业配置了重试,在超时时间内未执行完成,该作业将会再次重试。

说明:

如果作业一直处于启动中状态,没有成功开始运行,超时后作业会被置为失败。

失败重试

节点执行失败后,是否重新执行节点

  • 是:重新执行节点,请配置以下参数。
    • 超时重试
    • 最大重试次数
    • 重试间隔时间(秒)
  • 否:默认值,不重新执行节点
    说明:

    如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。

    当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。

    当“失败重试”配置为“是”才显示“超时重试”。