更新时间:2024-07-11 GMT+08:00

DLI Flink Job

功能

DLI Flink Job节点用于创建和启动作业,或者查询DLI作业是否正在运行,实现实时流式大数据分析。

DLI Flink流式作业提交到DLI之后,若处于运行中的状态,则认为节点执行成功。若作业配置了周期调度,则会周期检查该Flink作业是否依然处于运行中的状态,如果处于运行状态,则认为节点执行成功。

参数

DLI Flink Job的参数配置,请参考以下内容:

  • 属性参数:
    当作业类型为“Flink SQL作业”、“Flink OpenSource SQL作业”或“Flink自定义作业”时,系统会根据在节点中配置的作业情况,进行创建和启动作业。
    • 选择已存在的Flink作业:请参见表1
    • Flink SQL作业:请参见表2
    • Flink OpenSource SQL作业:请参见表3
    • Flink自定义作业:请参见表4
  • 高级参数:表5
表1 已存在的Flink作业-属性参数

参数

是否必选

说明

作业类型

选择“选择已存在的Flink作业”

作业名称

选择一个已存在的DLI Flink作业。

节点名称

节点名称,可以包含中文、英文字母、数字、“_”“-”“/”“<”“>”等各类特殊字符,长度为1~128个字符。

表2 Flink SQL作业-属性参数

参数

是否必选

说明

节点名称

节点名称,可以包含中文、英文字母、数字、“_”“-”“/”“<”“>”等各类特殊字符,长度为1~128个字符。

作业类型

选择“Flink SQL作业”。用户采用编写SQL语句来启动作业。

作业名称

填写DLI Flink作业的名称,只能包含英文字母、数字、“_”,且长度为1~64个字符。默认与节点的名称一致。

作业名称添加工作空间前缀

设置是否为创建的作业名称添加工作空间前缀。

脚本路径

选择需要执行的Flink SQL脚本。如果脚本未创建,请参考新建脚本开发SQL脚本创建和开发Flink SQL脚本。

脚本参数

关联的Flink SQL脚本如果使用了参数,此处显示参数名称,请在参数名称后的输入框配置参数值。参数值支持使用EL表达式

若关联的Flink SQL脚本,脚本参数发生变化,可单击刷新按钮同步。

UDF Jar

当作业所属集群选择独享集群时,该参数有效。在选择UDF Jar之前,您需要将UDF Jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源

用户可以在SQL中调用插入Jar包中的自定义函数。

DLI队列

默认选择“共享队列”,用户也可以选择自定义的独享队列。

说明:
  • 当子用户在创建作业时,子用户只能选择已经被分配的队列。
  • 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。
  • DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。

CUs

CUs为DLI计费单位,一个CU是1核4G的资源配置。

并发数

并发数是指同时运行Flink SQL作业的任务数。

说明:

并发数不能大于计算单元(CUs-1)的4倍。

异常自动启动

设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。

表3 Flink OpenSource SQL作业-属性参数

参数

是否必选

说明

节点名称

节点名称,可以包含中文、英文字母、数字、“_”“-”“/”“<”“>”等各类特殊字符,长度为1~128个字符。

作业类型

选择“Flink OpenSource SQL作业”。用户采用编写SQL语句来启动作业。

作业名称

填写DLI Flink作业的名称,只能包含英文字母、数字、“_”,且长度为1~64个字符。默认与节点的名称一致。

作业名称添加工作空间前缀

设置是否为创建的作业名称添加工作空间前缀。

脚本路径

选择需要执行的Flink SQL脚本。如果脚本未创建,请参考新建脚本开发SQL脚本创建和开发Flink SQL脚本。

脚本参数

关联的Flink SQL脚本如果使用了参数,此处显示参数名称,请在参数名称后的输入框配置参数值。参数值支持使用EL表达式

若关联的Flink SQL脚本,脚本参数发生变化,可单击刷新按钮同步。

UDF Jar

当作业所属集群选择独享集群时,该参数有效。在选择UDF Jar之前,您需要将UDF Jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源

用户可以在SQL中调用插入Jar包中的自定义函数。

DLI队列

默认选择“共享队列”,用户也可以选择自定义的独享队列。

说明:
  • 当子用户在创建作业时,子用户只能选择已经被分配的队列。
  • DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。

CUs

CUs为DLI计费单位,一个CU是1核4G的资源配置。

并发数

并发数是指同时运行Flink SQL作业的任务数。

说明:

并发数不能大于计算单元(CUs-1)的4倍。

异常自动启动

设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。

表4 Flink自定义作业-属性参数

参数

是否必选

说明

作业类型

选择“Flink自定义作业”

jar包资源

用户自定义的程序包。在选择程序包之前,您需要将对应的jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源

入口类

指定加载的Jar包类名,如KafkaMessageStreaming。

  • 默认:根据Jar包文件的Manifest文件指定。
  • 指定:需要输入类名并确定类参数列表(参数间用空格分隔)。
    说明:

    当类属于某个包时,需携带包路径,例如:packagePath.KafkaMessageStreaming。

入口参数

指定类的参数列表,参数之间使用空格分隔。

DLI队列

默认选择“共享队列”,用户也可以选择自定义的独享队列。

说明:
  • 当子用户在创建作业时,子用户只能选择已经被分配的队列。
  • 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。
  • DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。

作业特性

选择自定义镜像和对应版本。仅当DLI队列为容器化队列类型时,出现本参数。

自定义镜像是DLI的特性。用户可以依赖DLI提供的Spark或者Flink基础镜像,使用Dockerfile将作业运行需要的依赖(文件、jar包或者软件)打包到镜像中,生成自己的自定义镜像,然后将镜像发布到SWR(容器镜像服务)中,最后在此选择自己生成的镜像,运行作业。

自定义镜像可以改变Spark作业和Flink作业的容器运行环境。用户可以将一些私有能力内置到自定义镜像中,从而增强作业的功能、性能。关于自定义镜像的更多详情,请参见自定义镜像

CUs

CUs为DLI计费单位,一个CU是1核4G的资源配置。

管理节点CU数量

设置管理单元的CU数,支持设置1~4个CU数,默认值为1个CU。

并发数

并发数是指同时运行Flink SQL作业的任务数。

说明:

并发数不能大于计算单元(CUs-1)的4倍。

异常自动启动

设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。

作业名称

填写DLI Flink作业的名称,只能包含英文字母、数字、“_”,且长度为1~64个字符。默认与节点的名称一致。

作业名称添加工作空间前缀

设置是否为创建的作业添加工作空间前缀。

节点名称

节点名称,可以包含中文、英文字母、数字、“_”“-”“/”“<”“>”等各类特殊字符,长度为1~128个字符。

表5 高级参数

参数

是否必选

说明

节点执行的最长时间

设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。

失败重试

节点执行失败后,是否重新执行节点

  • 是:重新执行节点,请配置以下参数。
    • 超时重试
    • 最大重试次数
    • 重试间隔时间(秒)
  • 否:默认值,不重新执行节点
    说明:

    如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。

    当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。

    当“失败重试”配置为“是”才显示“超时重试”。

当前节点失败后,后续节点处理策略

节点执行失败后的操作:

  • 终止后续节点执行计划:停止后续节点的运行,当前作业实例状态显示为“失败”。
  • 终止当前作业执行计划:停止当前作业运行,当前作业实例状态显示为“失败”。
  • 继续执行下一节点:忽略当前节点失败,当前作业实例状态显示为“忽略失败”。
  • 挂起当前作业执行计划:当前作业实例的状态为运行异常,该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。

是否空跑

如果勾选了空跑,该节点不会实际执行,将直接返回成功。

任务组

选择任务组。任务组配置好后,可以更细粒度的进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。