更新时间:2024-09-04 GMT+08:00
ALM-12002 HA资源异常(2.x及以前版本)
告警解释
HA软件周期性检测Manager的WebService浮动IP地址和Manager的数据库。当HA软件检测到浮动IP地址或数据库异常时,产生该告警。
当HA检测到浮动IP地址或数据库正常后,告警恢复。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
12002 |
严重 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
RESName |
产生告警的资源名称。 |
对系统的影响
如果Manager的WebService浮动IP地址异常,用户无法登录和使用Manager。如果Manager的数据库异常,所有核心业务和相关业务进程,例如告警和监控功能,都会受影响。
可能原因
- 浮动IP地址异常。
- 数据库异常。
处理步骤
- 检查主管理节点的浮动IP地址状态。
- 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址及资源名称。
- 登录主管理节点。执行以下命令切换用户:
su - omm
- 进入“${BIGDATA_HOME}/om-0.0.1/sbin/”目录,并执行status-oms.sh脚本检查主Manager的浮动IP是否正常,查看回显中,“ResName”为“floatip”的一行,是否显示以下信息:
例如:
10-10-10-160 floatip Normal Normal Single_active
- 联系运维人员检查浮动IP地址的网卡是否存在。
- 请联系运维人员处理网卡问题。
- 是,处理完毕。
- 否,执行2。
- 检查主备管理节点的数据库状态。
- 分别登录主备管理节点,执行sudo su - root和su - ommdba命令切换到ommdba用户,执行gs_ctl query命令。查看回显是否显示以下信息。
主管理节点的回显:
Ha state: LOCAL_ROLE: Primary STATIC_CONNECTIONS: 1 DB_STATE: Normal DETAIL_INFORMATION: user/password invalid Senders info: No information Receiver info: No information
备管理节点的回显:
Ha state: LOCAL_ROLE: Standby STATIC_CONNECTIONS: 1 DB_STATE : Normal DETAIL_INFORMATION: user/password invalid Senders info: No information Receiver info: No information
- 等待5分钟,查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行3。
- 分别登录主备管理节点,执行sudo su - root和su - ommdba命令切换到ommdba用户,执行gs_ctl query命令。查看回显是否显示以下信息。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。
参考信息
无。
父主题: MRS集群告警处理参考