文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-45638 FlinkServer作业失败重启次数超阈值

更新时间：2026-06-10 GMT+08:00

ALM-45638 FlinkServer作业失败重启次数超阈值

告警解释

系统以用户配置的告警周期检查FlinkServer作业重启次数，如果重启次数超过用户配置的阈值，则发送告警。当作业重启成功，则告警恢复。

本章节仅适用于MRS 3.1.2-LTS至3.2.0-LTS之间版本集群，MRS 3.2.0-LTS及之后版本集群请参考ALM-45638 Flink作业失败重启次数超阈值处理。

告警属性

告警ID	告警级别	是否自动清除
45638	次要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
任务名	产生告警的任务名称。

对系统的影响

Flink作业重启次数超阈值，说明Flink作业在频繁的失败重启，需要用户介入来查看原因，是Flink作业级别告警，对FlinkServer本身无影响。

可能原因

FlinkServer重启次数超阈值的原因可在具体日志中查看。

处理步骤

使用具有FlinkServer管理操作权限的用户登录Manager。
选择“集群 > 服务 > Yarn”，单击“ResourceManager WebUI”后的链接进入Yarn页面。
根据告警“定位信息”中的任务名找到失败任务，查找并记录失败作业的“application ID”，是否可以在Yarn页面上查看到作业日志。

图1 作业的“application ID”

是，执行步骤 4。

否，执行步骤 6。
单击失败作业application ID进入作业界面。
1. 单击作业“Logs”列的“Logs”，查看jobmanager日志。
  图2 单击“Logs”
2. 单击“Attempt ID”列的ID，单击“Logs”列的“Logs”，查看taskmanager日志。
  图3 单击“Attempt ID”列的ID
  
  图4 单击“Logs”
  
  使用具有FlinkServer管理操作权限的用户登录Manager，选择“集群 > 服务 > Flink”，单击“Flink WebUI”后的链接，单击“作业管理”，在作业的“操作”列选择“更多 > 作业详情”也可查看taskmanager日志。
查看失败作业日志进行故障修复，或联系运维人员，并发送已收集的故障日志信息。操作结束。

若无法在Yarn页面上查看日志，可通过HDFS下载日志。

返回Manager，选择“集群 > 服务 > HDFS”，单击“NameNode WebUI”后的链接进入HDFS页面，选择“Utilities > Browse the file system”，在“/tmp/logs/用户名/logs/失败任务的application ID”目录下载日志。
查看失败作业日志进行故障修复，或联系运维人员，并发送已收集的故障日志信息。

告警清除

FlinkServer作业重新启动成功后，则告警恢复，无需手动清除。

参考信息

无。

父主题： MRS集群告警处理参考

上一篇：ALM-45637 FlinkServer作业task持续背压

下一篇：ALM-45638 Flink作业失败重启次数超阈值

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问