ALM-45638 Flink作业失败重启次数超阈值

告警解释

系统以用户配置的告警周期（metrics.reporter.alarm.interval，默认值：30s）检查Flink作业重启次数，如果重启次数达到用户配置的阈值，则发送告警。当作业重启成功，则告警恢复。

该告警阈值计算公式为：失败重启次数需要上报告警的比率*作业的最大重启次数，MRS 3.2.1-LTS及之后版本默认值为3（80%*3向上取整）。

失败重启次数需要上报告警的比率：metrics.reporter.alarm.job.alarm.failure.restart.rate，默认值：80。
作业的最大重启次数：依据当前Flink作业设置的重启策略restart-strategy（MRS 3.2.1-LTS及之后版本默认重启策略为fixed-delay策略），详情可参考配置Flink作业重启策略。
- 若重启策略为none，不触发该告警（MRS 3.2.1-LTS之前版本默认重启策略为none）。
- 若重启策略为failure-rate策略，failure-rate重启策略的最大重启次数默认值为1（restart-strategy.failure-rate.max-failures-per-interval）。
  则该告警阈值为1（80%*1向上取整），即如果该作业重启次数达到1次，即会发送告警。
- 若重启策略为fixed-delay策略，fixed-delay重启策略的重启次数默认值为3（restart-strategy.fixed-delay.attempts）。
  则该告警阈值为3（80%*3向上取整），即如果该作业重启次数达到3次，即会发送告警。

本章节仅适用于MRS 3.2.0-LTS.1及之后版本的集群。

告警属性

告警ID	告警级别	是否自动清除
45638	重要	否

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
任务名	产生告警的任务名称。
用户名	产生告警的用户名称。

对系统的影响

当Flink作业重启次数超过阈值，说明Flink作业存在频繁失败问题，需要作业开发用户查看作业日志定位失败重启原因。该告警属于Flink作业级别告警，对FlinkServer本身运行状态无影响。

可能原因

Flink作业重启次数超阈值的原因可在具体作业日志中查看。

处理步骤

在Yarn页面上查看并保存作业日志。

使用具有FlinkServer管理操作权限、Manager界面管理权限及Yarn WebUI访问权限的用户登录MRS集群Manager。

相关用户需要提前在集群Manager中创建，并绑定具有FlinkServer管理操作权限的角色，具体操作可参考创建FlinkServer权限角色。

登录集群Manager具体操作，请参考访问MRS集群Manager。
选择“运维 > 告警 > 告警”，在告警列表中单击此告警所在行的，查看并记录“定位信息”中的任务名。
选择“集群 > 服务 > Yarn”，单击“ResourceManager WebUI”后的链接进入Yarn WebUI页面。
根据告警“定位信息”中的任务名找到失败任务，查找并记录失败作业的“application ID”，确认是否可以在Yarn页面上查看到作业日志。

图1 作业的“application ID”
- 是，执行步骤 5。
- 否，执行步骤 7。
单击失败作业application ID进入作业界面。
1. 单击作业“Logs”列的“Logs”，查看并保存JobManager日志。
  图2 单击“Logs”
2. 单击“Attempt ID”列的ID，单击“Logs”列的“Logs”，查看并保存TaskManager日志。
  图3 单击“Attempt ID”列的ID
  
  图4 单击“Logs”
  
  使用具有FlinkServer管理操作权限的用户登录Manager，选择“集群 > 服务 > Flink”，单击“Flink WebUI”后的链接，单击“作业管理”，单击对应作业“操作”列的“作业详情”，也可查看TaskManager日志。
查看失败作业日志进行故障修复，重启作业，查看是否有新的告警上报。
- 否，处理完毕。
- 是，执行步骤 10。

若无法在Yarn页面上查看日志，可通过HDFS下载日志。

在Manager首页，选择“集群 > 服务 > HDFS”，单击“NameNode Web UI”后的链接进入HDFS页面。
选择“Utilities > Browse the file system”，在“/tmp/logs/用户名/logs/失败任务的application ID”目录下载失败作业的日志。
查看失败作业日志进行故障修复，重启作业，查看是否有新的告警上报。
- 否，处理完毕。
- 是，执行步骤 10。
联系运维人员，发送已收集的故障日志信息进行分析，操作结束。