ALM-14012 HDFS Journalnode数据不同步（2.x及以前版本）

告警解释

在主NameNode节点上，系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步，系统产生该告警。

当Journalnode数据同步5分钟后，告警恢复。

告警属性

告警ID	告警级别	可自动清除
14012	严重	是

告警参数

参数名称	参数含义
ServiceName	产生告警的服务名称。
RoleName	产生告警的角色名称。
IP	产生告警的JournalNode实例的业务IP地址。

对系统的影响

当一个JournalNode节点工作状态异常时，其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时，NameNode将无法工作，导致HDFS服务不可用。

可能原因

JournalNode实例未启动或已停止。
JournalNode实例运行状态异常。
JournalNode节点的网络不可达。

处理步骤

查看JournalNode实例是否启动。
1. 登录MRS集群详情页面，单击“告警管理”，在告警列表中单击此告警。
2. 在“告警详情”区域，查看“定位信息”，获取告警产生的JournalNode节点IP地址。
3. 单击“组件管理 > HDFS > 实例”，在实例列表中单击告警节点上的JournalNode实例，查看其“操作状态”是否为“已启动”。
  - 是，执行2.a。
  - 否，执行1.d。
4. 勾选该JournalNode实例，单击“更多 > 启动实例”，等待启动完成。
5. 等待5分钟后，查看告警是否清除。
  - 是，处理完毕。
  - 否，执行步骤 4。
查看JournalNode实例运行状态是否正常。
1. 查看该JournalNode实例的“健康状态”是否为“良好”。
  - 是，执行3.a。
  - 否，执行2.b。
2. 勾选该JournalNode实例，单击“更多 > 重启实例”，等待启动完成。
3. 等待5分钟后，查看告警是否清除。
  - 是，处理完毕。
  - 否，执行步骤 4。
查看JournalNode节点网络是否可达。
1. 在MRS集群详情页面，单击“组件管理 > HDFS > 实例”，查看主NameNode节点的业务IP地址。
2. 登录主NameNode节点。
3. 使用ping命令检查主NameNode与该JournalNode之间的网络状况，是否有超时或者网络不可达的情况。
  ping JournalNode的业务IP地址
  - 是，执行3.d。
  - 否，执行步骤 4。
4. 联系运维人员处理网络故障，故障恢复后等待5分钟，查看告警是否清除。
  - 是，处理完毕。
  - 否，执行步骤 4。
收集故障信息。
1. 在MRS Manager界面，单击“系统设置 > 日志导出”。
2. 请联系运维人员，并发送已收集的故障日志信息。