文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-12011 Manager主备节点同步数据异常
更新时间:2025-08-09 GMT+08:00

ALM-12011 Manager主备节点同步数据异常

告警解释

系统按60秒周期检测Manager主备节点同步数据情况,当备Manager无法与主Manager同步文件时,产生该告警。

当备Manager与主Manager正常同步文件时,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

12011

紧急

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

备Manager的配置文件没有更新。当发生主备倒换时,同步异常的配置文件可能会丢失。Manager及部分组件可能无法正常运行。

可能原因

  • 主备Manager节点间链路中断,/srv/BigData/LocalBackup目录存储空间已满。
  • 同步文件不存在,或者文件权限有误。

处理步骤

检查主备Manager服务器间的网络是否正常。

  1. 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的,获取该告警的备Manager(即Peer Manager)IP地址。
  2. root用户登录集群主OMS节点

    集群主、备OMS节点的IP地址可在MRS管理控制台进入集群详情页后,在“节点管理”页签中查看。

  3. 执行命令检查备Manager服务器是否可达。

    ping 备OMS节点的IP地址

  4. 联系网络管理员查看是否为网络故障。

  5. 修复网络故障,查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行步骤 6

检查/srv/BigData/LocalBackup目录存储空间是否已满

  1. 执行以下命令检查“/srv/BigData/LocalBackup”目录存储空间是否已满。

    df -hl /srv/BigData/LocalBackup

    显示结果如下:

    Filesystem      Size  Used Avail Use% Mounted on
    /dev/vdb1        28G  1.6G   26G   6% /srv/BigData/LocalBackup

  2. 执行以下命令清理不需要的备份文件。

    rm -rf 待清理的目录路径

    例如执行以下命令:

    rm -rf /srv/BigData/LocalBackup/0/default-oms_20191211143443

  3. 在FusionInsight Manager界面,选择“运维 > 备份恢复 > 备份管理”。

    在待操作备份任务右侧“操作”栏下,单击“配置”,修改“最大备份数”减少备份文件集数量。

  4. 等待大约1分钟,查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行步骤 10

检查同步文件是否存在,文件权限是否异常。

  1. 执行以下命令查找同步文件是否存在。

    find /srv/BigData/ -name "sed*"
    find /opt -name "sed*"

    命令执行后没有返回结果,表示不存在同步文件。

  2. 执行以下命令,查看步骤 10查找出的同步文件信息及权限。

    ll 待查找文件路径
    • 如果文件大小为0,且权限栏全为“-”,则为垃圾文件,请执行以下命令删除。
      rm -rf 待删除文件

      等待几分钟观察告警是否清除,如果未清除则执行步骤 12

    • 如果文件大小不为0,则执行步骤 12

  3. 查看发生告警时间段的日志文件。

    1. 执行以下命令,进入当前集群的HA运行日志文件路径。
      cd /var/log/Bigdata/omm/oms/ha/runlog/
    2. 解压并查看发生告警时间段的日志文件。

      例如,待查看文件名称为“ha.log.2021-03-22_12-00-07.gz”,则执行以下命令:

      gunzip ha.log.2021-03-22_12-00-07.gz
      vi ha.log.2021-03-22_12-00-07

      查看日志中,告警时间点前后是否有报错信息。

      例如查询出报错信息如下,表示目录权限不足,则请修改对应目录权限与正常节点保持一致。

      • 是,根据相关报错信息进行处理,然后执行步骤 13
      • 否,执行步骤 14

  4. 等待大约10分钟,查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行步骤 14

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选如下节点信息,单击“确定”。

    • OmmServer
    • Controller
    • NodeAgent

  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。