文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-12002 HA资源异常(2.x及以前版本)
更新时间:2024-08-13 GMT+08:00
分享

ALM-12002 HA资源异常(2.x及以前版本)

告警解释

HA软件周期性检测Manager的WebService浮动IP地址和Manager的数据库。当HA软件检测到浮动IP地址或数据库异常时,产生该告警。

当HA检测到浮动IP地址或数据库正常后,告警恢复。

告警属性

告警ID

告警级别

可自动清除

12002

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

RESName

产生告警的资源名称。

对系统的影响

如果Manager的WebService浮动IP地址异常,用户无法登录和使用Manager。如果Manager的数据库异常,所有核心业务和相关业务进程,例如告警和监控功能,都会受影响。

可能原因

  • 浮动IP地址异常。
  • 数据库异常。

处理步骤

  1. 检查主管理节点的浮动IP地址状态。

    1. 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址及资源名称。
    2. 登录主管理节点。执行以下命令切换用户:

      sudo su - root

      su - omm

    3. 进入“${BIGDATA_HOME}/om-0.0.1/sbin/”目录,并执行status-oms.sh脚本检查主Manager的浮动IP是否正常,查看回显中,“ResName”为“floatip”的一行,是否显示以下信息:

      例如:

      10-10-10-160 floatip Normal Normal Single_active
      • 是,执行2
      • 否,执行1.d
    4. 联系运维人员检查浮动IP地址的网卡是否存在。
      • 是,执行2
      • 否,执行1.e
    5. 请联系运维人员处理网卡问题。

      等待5分钟,查看告警列表中,该告警是否已清除。

      • 是,处理完毕。
      • 否,执行2

  2. 检查主备管理节点的数据库状态。

    1. 分别登录主备管理节点,执行sudo su - rootsu - ommdba命令切换到ommdba用户,执行gs_ctl query命令。查看回显是否显示以下信息。

      主管理节点的回显:

      Ha state:
      LOCAL_ROLE: Primary
      STATIC_CONNECTIONS: 1
      DB_STATE: Normal
      DETAIL_INFORMATION: user/password invalid
       Senders info:
      No information
       Receiver info:
      No information

      备管理节点的回显:

      Ha state:
      LOCAL_ROLE: Standby
      STATIC_CONNECTIONS: 1
      DB_STATE : Normal
      DETAIL_INFORMATION: user/password invalid
       Senders info:
      No information
       Receiver info:
      No information
      • 是,执行2.c
      • 否,执行2.b
    1. 联系运维人员查看是否为网络故障,并修复故障。
      • 是,执行2.c
      • 否,执行3
    1. 等待5分钟,查看告警列表中,该告警是否已清除。
      • 是,处理完毕。
      • 否,执行3

  3. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

相关文档