文档首页/ MapReduce服务 MRS/ 故障排除/ 使用HDFS/ 集群出现ALM-14012 Journalnode数据不同步告警
更新时间:2022-12-08 GMT+08:00

集群出现ALM-14012 Journalnode数据不同步告警

问题背景与现象

MRS集群出现ALM-14012 Journalnode数据不同步告警。

原因分析

  1. 登录告警节点,查找日志路径“/var/log/Bigdata/hdfs/nn”下Journalnode实例的startDetail.log日志信息,发现Journalnode实例停止过。
  2. 分别查看告警节点和其他JournalNode节点的“/srv/BigData/journalnode/hacluster/current”路径下最新的edits日志文件,发现告警节点与其他节点存在不同步的情况。

解决办法

  1. 登录FusionInsight Manager,选择“集群 > 服务 > HDFS > 实例”,勾选告警发生节点对应的Journalnode实例,选择“更多 > 停止实例”。
  2. 登录告警节点,将“/srv/BigData/journalnode/hacluster/current”目录下的所有文件移动到其他新建目录下(例如“/opt/test”),保持该目录下清空状态。
  3. 登录FusionInsight Manager,选择“集群 > 服务 > HDFS > 实例”,勾选停止的Journalnode实例,单击“启动实例”。
  4. 等待一段时间后,观察告警是否恢复。