Flink重启策略

发布时间 2023-06-15 10:31:30作者: 再见傅里叶

Flink默认重启策略是通过Flink的配置文件设置的flink-conf.yaml,配置参数restart-strategy定义采用的策略。

注意:如果启用了checkpoint并且没有显式配置重启策略,会默认使用fixeddelay策略,最大重试次数为Integer.MAX_VALUE。

1.固定延迟重启策略

固定延迟重启策略是尝试给定次数重新启动作业。如果超过最大尝试次数,则作业失败。在两次连续重启尝试之间,会有一个固定的延迟等待时间。通过在flink-conf.yaml中配置参数:

restart-strategy: fixed-delay # fixed-delay:固定延迟策略

restart-strategy.fixed-delay.attempts: 5 # 尝试5次,默认Integer.MAX_VALUE

restart-strategy.fixed-delay.delay: 10s # 设置延迟时间10s,默认为 akka.ask.timeout时间

也可以在API env中设置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 设置固定延迟重启策略
env.setRestartStrategy(RestartStrategies
.fixedDelayRestart(3,Time.seconds(3)));

2.故障率重启策略

故障率重启策略在故障后重新作业,当设置的故障率(failure rate)超过每个时间间隔的故障时,作业最终失败。在两次连续重启尝试之间,重启策略延迟等待一段时间。

restart-strategy: failure-rate # 设置重启策略为failure-rate

restart-strategy.failure-rate.max-failures-per-interval: 3 # 失败作业之前的给定时间间隔内的最大重启次数,默认1

restart-strategy.failure-rate.failure-rate-interval: 5min # 测量故障率的时间间隔。默认1min

restart-strategy.failure-rate.delay: 10s # 两次连续重启尝试之间的延迟,默认akka.ask.timeout时间

失败后,5分钟内重启3次(每次重启间隔10s),如果第3次还是失败,则任务最终是失败,不再重启

3.无重启策略

restart-strategy: none

4.后备重启策略

如果程序没有启用 Checkpoint,则采用不重启策略,如果开启了 Checkpoint 且没有设置重启策略,那么采用固定延时重启策略,最大重启次数为 Integer.MAX_VALUE。