开发实时处理单任务DLI Spark作业
前提条件
参见新建作业创建一个实时处理的单任务DLI Spark作业。
配置DLI Spark作业
参数 |
是否必选 |
说明 |
---|---|---|
作业名称 |
是 |
输入DLI Spark作业名称。 作业名称只能包含英文字母、数字、下划线和中划线,且长度为1~64个字符。 |
DLI队列 |
是 |
选择DLI队列。 |
Spark版本 |
否 |
|
作业特性 |
否 |
用户作业使用的Spark镜像类型(当前支持基础型、AI增强型和自定义的Spark镜像)。
|
作业运行资源 |
否 |
|
作业主类 |
否 |
该参数表示作业的Java/Scala主类。 |
Spark程序资源包 |
是 |
该参数表示Spark程序依赖的资源包。 |
资源类型 |
是 |
DLI程序包:作业执行前,会将资源包文件上传到DLI资源管理。 OBS路径:作业执行时,不会上传资源包文件到DLI资源管理,文件的OBS路径会作为启动作业消息体的一部分,推荐使用该方式。 |
分组设置 |
否 |
当“资源类型”选择“DLI程序包”时,才需要配置该参数。 将Spark程序资源包上传到指定的分组中,主Jar包和依赖包会上传到同一个分组中。
|
主类入口参数 |
否 |
配置该参数时,多个参数请以Enter键进行分隔。 |
Spark作业运行参数 |
否 |
配置该参数时,输入格式为key=value的参数,多个参数请以Enter键进行分隔。 |
Module名称 |
否 |
选择Module名称,支持选择多个。 |
访问元数据 |
否 |
访问元数据的开关。 如果需要在DLI Spark作业中访问由DLI SQL作业创建的OBS表,就要打开访问元数据开关。 |
参数 |
是否必选 |
说明 |
---|---|---|
作业状态轮询时间(秒) |
是 |
设置轮询时间(30~60秒、120秒、180秒、240秒、300秒),每隔x秒查询一次作业是否执行完成。 作业运行过程中,根据设置的作业状态轮询时间查询作业运行状态。 |
最长等待时间 |
是 |
设置作业执行的超时时间,如果作业配置了重试,在超时时间内未执行完成,该作业将会再次重试。
说明:
如果作业一直处于启动中状态,没有成功开始运行,超时后作业会被置为失败。 |
失败重试 |
否 |
节点执行失败后,是否重新执行节点。
|