ALM-45636 Flink作业连续checkpoint失败次数超阈值

告警解释

系统以用户配置的告警周期（metrics.reporter.alarm.interval，默认值：30s）检查CheckPoint连续失败次数，如果FlinkServer作业CheckPoint连续失败次数达到用户配置的阈值（job.alarm.checkpoint.consecutive.failures.num，默认值：5），则发送告警。当CheckPoint恢复正常，或者作业重启成功，则告警恢复。

本章节仅适用于MRS 3.3.1-LTS及之后版本。

告警参数值配置

配置FlinkServer方式提交的作业的告警参数。

登录Manager，选择“集群 > 服务 > Flink > 配置 > 全部配置”，搜索待修改的告警参数名称。
修改“FlinkServer（角色）”下该告警参数的值，修改完成后，单击“保存” 。
单击“实例”页签，勾选FlinkServer实例，选择“更多 > 重启实例”，实例重启成功后，修改的告警参数值生效。

配置Flink客户端方式提交的作业的告警参数。

执行以下命令，进入Flink客户端安装目录例如：“/opt/hadoopclient/Flink/flink”。
```
cd /opt/hadoopclient/Flink/flink
```
执行以下命令，编辑客户端flink-conf.yaml配置文件，修改告警参数值。
```
vim conf/flink-conf.yaml
```
修改完成后执行:wq保存退出。

告警属性

告警ID	告警级别	是否可自动清除
45636	重要	是

告警参数

类别	参数名称	参数含义
定位信息	来源	产生告警的集群名称。
	服务名	产生告警的服务名称。
	应用名	产生告警的应用名称。
	任务名	产生告警的任务名称。
	用户名	产生告警的用户名称。
附加信息	ThresholdValue	系统当前指标取值满足自定义的告警设置条件的门限值。
附加信息	CurrentValue	系统当前指标取值满足自定义的告警设置条件的当前值。

对系统的影响

Flink作业的CheckPoint连续失败，超过阈值后Flink作业有失败的风险，需要用户介入查看Flink作业运行状态和日志来确定问题原因，是Flink作业级别的告警，对FlinkServer本身没有影响。

可能原因

失败原因可在具体日志中查看。

处理步骤

使用具有FlinkServer管理操作权限的用户登录Manager。
选择“集群 > 服务 > Yarn”，单击“ResourceManager WebUI”后的链接进入Yarn原生页面。
根据告警“定位信息”中的任务名找到失败任务，查找并记录失败作业的“application ID”，是否可以在Yarn原生页面上查看到作业日志。

图1 作业的“application ID”
- 是，执行步骤 4。
- 否，执行步骤 6。
单击失败作业application ID进入作业界面。
1. 单击作业“Logs”列的“Logs”，查看jobmanager日志。
  图2 单击“Logs”
2. 单击“Attempt ID”列的ID，单击“Logs”列的“Logs”，查看taskmanager日志。
  图3 单击“Attempt ID”列的ID
  
  图4 单击“Logs”
  
  使用具有FlinkServer管理操作权限的用户登录Manager，选择“集群 > 服务 > Flink”，单击“Flink WebUI”后的链接，单击“作业管理”，在作业的“操作”列选择“更多 > 作业详情”也可查看taskmanager日志。
查看失败作业日志进行故障修复，或联系运维人员，并发送已收集的故障日志信息。操作结束。

若无法在Yarn页面上查看日志，可通过HDFS下载日志。

返回Manager，选择“集群 > 服务 > HDFS”，单击“NameNode WebUI”后的链接进入HDFS页面，选择“Utilities > Browse the file system”，在“/tmp/logs/用户名/logs/失败任务的application ID”目录下载日志。
查看失败作业日志进行故障修复，或联系运维人员，并发送已收集的故障日志信息。