更新时间:2024-04-29 GMT+08:00

开发实时处理单任务Flink Jar作业

前提条件

参见新建作业创建一个实时处理的单任务Flink Jar作业。

配置Flink Jar作业

表1 配置属性参数

参数

是否必选

说明

Flink作业名称

输入Flink作业名称。

系统支持Flink作业名称按照工作空间-作业名称格式自动填入。

作业名称只能包含英文字母、数字、中划线和下划线,且长度为1~64个字符。

MRS集群名

选择MRS集群名称。

说明:

单任务Flink Jar目前支持的MRS集群版本是MRS 3.2.0-LTS.1及以上版本。

运行程序参数

配置作业运行参数。

该参数为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。

注意:

系统支持Flink Jar作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink Checkpoin生效,需要配置两个运行参数:

  • 用来控制checkpoint间隔

    -yD:execution.checkpointing.interval=1000

  • 用来控制保留的checkpoint数量

    -yD:state.checkpoints.num-retained=10

    查询checkpoint列表时,配置-s参数,鼠标单击参数值输入框,checkpoint列表参数值会自动弹出。

说明:

若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。

单击“选择模板”,选择已创建好的脚本模板,系统支持可以引用多个模板。创建模板的详细操作请参见配置模板

MRS Flink作业的运行程序参数,请参见《MapReduce用户指南》中的运行Flink作业

Flink作业执行参数

配置Flink作业执行参数。

Flink程序执行的关键参数,该参数由用户程序内的函数指定。多个参数间使用空格隔开。

MRS资源队列

选择已创建好的MRS资源队列。

需要先在数据安全服务队列权限功能中,配置对应的队列后,才能在此处选择到已配置的队列。当有多处同时配置了资源队列时,此处配置的资源队列为最高优先级。

Flink作业资源包

选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源

重跑策略

  • 从上一个检查点重跑
  • 重新启动

输入数据路径

设置输入数据路径,系统支持从HDFS或OBS的目录路径进行配置。

输出数据路径

设置输出数据路径,系统支持从HDFS或OBS的目录路径进行配置。

表2 配置高级参数

参数

是否必选

说明

作业状态轮询时间(秒)

设置轮询时间(30~60秒、120秒、180秒、240秒、300秒),每隔x秒查询一次作业是否执行完成。

作业运行过程中,根据设置的作业状态轮询时间查询作业运行状态。

最长等待时间

设置作业执行的超时时间,如果作业配置了重试,在超时时间内未执行完成,该作业将会再次重试。

说明:

如果作业一直处于启动中状态,没有成功开始运行,超时后作业会被置为失败。

失败重试

节点执行失败后,是否重新执行节点

  • 是:重新执行节点,请配置以下参数。
    • 超时重试
    • 最大重试次数
    • 重试间隔时间(秒)
  • 否:默认值,不重新执行节点
说明:

如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。

当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。

当“失败重试”配置为“是”才显示“超时重试”。