更新时间:2023-03-17 GMT+08:00

State Backend

配置场景

Flink提供了HA和作业的异常恢复,并且提供版本升级时作业的暂停恢复。对于作业状态的存储,Flink依赖于state backend,作业的重启依赖于重启策略,用户可以对这两部分进行配置。

配置描述

配置项包括state backend类型,存储路径,重启策略等。

表1 参数说明

参数

描述

默认值

是否必选配置

state.backend.fs.checkpointdir

当backend为filesystem时的路径,路径必须能够被JobManager访问到,本地路径只支持local模式,集群模式下请使用HDFS路径。

hdfs:///flink/checkpoints

state.savepoints.dir

Flink用于恢复和更新作业的保存点存储目录。当触发保存点的时候,保存点元数据信息将会保存到该目录中。

hdfs:///flink/savepoint

安全模式下必配

restart-strategy

默认重启策略,用于未指定重启策略的作业。三个值可选:

  • fixed-delay
  • failure-rate
  • none

none

restart-strategy.fixed-delay.attempts

fixed-delay策略重试次数,具体策略的介绍请参见:https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/task_failure_recovery.html

  • 作业中开启了checkpoint,则默认值为Integer.MAX_VALUE。
  • 作业中未开启checkpoint,默认值为3。

restart-strategy.fixed-delay.delay

fixed-delay策略重试间隔时间。单位:ms/s/m/h/d。

  • 作业中开启了checkpoint,默认值是10 s。
  • 作业中不开启checkpoint,默认值和配置项akka.ask.timeout的值一致。

restart-strategy.failure-rate.max-failures-per-interval

故障率策略下作业失败前给定时间段内的最大重启次数。具体策略的介绍请参见: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/task_failure_recovery.html

1

restart-strategy.failure-rate.failure-rate-interval

failure-rate策略重试时间。单位:ms/s/m/h/d。

60 s

restart-strategy.failure-rate.delay

failure-rate策略重试间隔时间。单位:ms/s/m/h/d。

默认值和akka.ask.timeout配置值一样,请参见Distributed Coordination (via Akka)