更新时间:2024-09-04 GMT+08:00
ALM-27001 DBService服务不可用
告警解释
告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。
DBService服务恢复时,告警清除。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
27001 |
紧急 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
对系统的影响
数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。
可能原因
- 浮动IP不存在。
- 没有主DBServer实例。
- 主备DBServer进程都异常。
处理步骤
检查集群环境中是否存在浮动IP。
- 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > DBService > 实例”。
- 查看是否有主实例存在。
- 选择主DBServer实例,记录IP地址。
- 以root用户登录上述IP所在主机,执行ifconfig命令查看DBService的浮动IP在该节点是否存在。
- 执行ping 浮动IP地址命令检查DBService的浮动IP的状态,是否能ping通。
- 以root用户登录DBService浮动IP所在主机,执行以下命令删除浮动IP地址。
ifconfig interface down
- 在FusionInsight Manager首页,选择“集群 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,检查是否启动成功。
服务在重启过程中将不可用。另外,依赖该服务的上层服务也将受到影响。
- 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。
- 是,处理完毕。
- 否,执行14。
检查主DBServer实例状态。
- 选择角色状态异常的DBServer实例,记录IP地址。
- 在“告警”页面,查看是否有上述IP所在主机DBServer实例“进程故障”告警产生。
- 按“ALM-12007 进程故障”提供的步骤处理该告警。
- 等待5分钟,查看告警列表中的DBService服务不可用告警是否恢复。
- 是,处理完毕。
- 否,执行19。
检查主备DBServer数据库进程状态。
- 以root用户登录DBService浮动IP所在主机,执行su - omm命令切换至omm用户。
- 执行cd ${DBSERVER_HOME}命令进入DBService服务的安装目录。
- 执行sh sbin/status-dbserver.sh命令查看DBService的主备HA进程状态,状态是否查询成功。
HAMode double NodeName HostName HAVersion StartTime HAActive HAAllResOK HARunPhase 10_5_89_12 host01 V100R001C01 2019-06-13 21:33:09 active normal Actived 10_5_89_66 host03 V100R001C01 2019-06-13 21:33:09 standby normal Deactived NodeName ResName ResStatus ResHAStatus ResType 10_5_89_12 floatip Normal Normal Single_active 10_5_89_12 gaussDB Active_normal Normal Active_standby 10_5_89_66 floatip Stopped Normal Single_active 10_5_89_66 gaussDB Standby_normal Normal Active_standby
- 查看主备HA进程是否都处于abnormal状态。
- 在FusionInsight Manager首页,选择“集群 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,查看界面是否提示重启成功。
- 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。
- 是,处理完毕。
- 否,执行19。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。
父主题: MRS集群告警处理参考