ALM-45638 Flink作业失败重启次数超阈值

系统以用户配置的告警周期（metrics.reporter.alarm.interval，默认值：30s）检查Flink作业重启次数，如果重启次数达到用户配置的阈值，则发送告警。当作业重启成功，则告警恢复。

该告警阈值计算公式为：失败重启次数需要上报告警的比率*作业的最大重启次数，MRS 3.2.1及之后版本默认值为 3（80%*3向上取整）。

本章节仅适用于MRS 3.2.0-LTS.1及以后版本的集群。

告警ID	告警级别	是否自动清除
45638	重要	是

Flink作业重启次数超过阈值，说明Flink作业在频繁的失败重启，需要作业开发用户查看作业日志，判断失败重启原因。本告警是Flink作业级别告警，对FlinkServer本身运行状态无影响。

Flink重启次数超阈值的原因可在具体作业日志中查看。

查看作业日志。

使用具有FlinkServer管理操作权限、Manager界面管理权限及Yarn WebUI访问权限的用户登录MRS集群Manager。
打开FusionInsight Manager页面，在告警列表中，单击此告警所在行的，查看告警详情中任务名称。
选择“集群 > 服务 > Yarn”，单击“ResourceManager WebUI”后的链接进入Yarn WebUI页面。
根据告警“定位信息”中的任务名找到失败任务，查找并记录失败作业的“application ID”，确认是否可以在Yarn页面上查看到作业日志。

图1 作业的“application ID”
- 是，执行步骤 5。
- 否，执行步骤 8。
单击失败作业application ID进入作业界面。
1. 单击作业“Logs”列的“Logs”，查看jobmanager日志。
  图2 单击“Logs”
2. 单击“Attempt ID”列的ID，单击“Logs”列的“Logs”，查看taskmanager日志。
  图3 单击“Attempt ID”列的ID
  
  图4 单击“Logs”
  
  使用具有FlinkServer管理操作权限的用户登录Manager，选择“集群 > 服务 > Flink”，单击“Flink WebUI”后的链接，单击“作业管理”，在作业的“操作”列选择“更多 > 作业详情”也可查看taskmanager日志。
查看失败作业日志进行故障修复，或联系运维人员，发送已收集的故障日志信息进行分析，操作结束。

若无法在Yarn页面上查看日志，可通过HDFS下载日志。

在集群Manager管理界面，选择“集群 > 服务 > HDFS”，单击“NameNode WebUI”后的链接进入HDFS页面。
选择“Utilities > Browse the file system”，在“/tmp/logs/用户名/logs/失败任务的application ID”目录下载日志。
查看失败作业日志进行故障修复，或联系运维人员，发送已收集的故障日志信息进行分析，操作结束。

Flink作业重新启动成功后，则告警恢复，无需手动清除。

无。

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消