更新时间:2024-11-29 GMT+08:00

ALM-27001 DBService服务不可用

告警解释

告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。

DBService服务恢复时,告警清除。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

27001

紧急

业务质量告警

FusionInsight Manager

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。

可能原因

  • 浮动IP不存在。
  • 没有主DBServer实例。
  • 主备DBServer进程都异常。

处理步骤

检查集群环境中是否存在浮动IP。

  1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > DBService > 实例”。
  2. 查看是否有主实例存在。

    • 是,执行3
    • 否,执行9

  3. 选择主DBServer实例,记录IP地址。
  4. root用户登录上述IP所在主机,执行ifconfig命令查看DBService的浮动IP在该节点是否存在

    • 是,执行5
    • 否,执行9

  5. 执行ping 浮动IP地址命令检查DBService的浮动IP的状态,是否能ping通。

    • 是,执行6
    • 否,执行9

  6. root用户登录DBService浮动IP所在主机,执行以下命令删除浮动IP地址。

    ifconfig interface down

  7. 在FusionInsight Manager首页,选择“ 集群 > 待操作集群的名称 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,检查是否启动成功。

    • 是,执行8
    • 否,执行9

  8. 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。

    • 是,处理完毕。
    • 否,执行14

检查主DBServer实例状态。

  1. 选择角色状态异常的DBServer实例,记录IP地址。
  2. 在“告警”页面,查看是否有上述IP所在主机DBServer实例“进程故障”告警产生。

    • 是,执行11
    • 否,执行19

  3. 按“ALM-12007 进程故障”提供的步骤处理该告警。
  4. 等待5分钟,查看告警列表中的DBService服务不可用告警是否恢复。

    • 是,处理完毕。
    • 否,执行19

检查主备DBServer数据库进程状态。

  1. root用户登录DBService浮动IP所在主机,执行su - omm命令切换至omm用户。
  2. 执行cd ${DBSERVER_HOME}命令进入DBService服务的安装目录。
  3. 执行sh sbin/status-dbserver.sh命令查看DBService的主备HA进程状态,状态是否查询成功。

    HAMode 
    double 
    
    NodeName                  HostName               HAVersion                StartTime                HAActive             HAAllResOK           HARunPhase          
    10_5_89_12                host01                 V100R001C01              2019-06-13 21:33:09      active               normal               Actived             
    10_5_89_66                host03                 V100R001C01              2019-06-13 21:33:09      standby              normal               Deactived           
    
    NodeName                  ResName                ResStatus                ResHAStatus              ResType             
    10_5_89_12                floatip                Normal                   Normal                   Single_active       
    10_5_89_12                gaussDB                Active_normal            Normal                   Active_standby      
    10_5_89_66                floatip                Stopped                  Normal                   Single_active       
    10_5_89_66                gaussDB                Standby_normal           Normal                   Active_standby  
    • 是,执行16
    • 否,执行19

  4. 查看主备HA进程是否都处于abnormal状态。

    • 是,执行17
    • 否,执行19

  5. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,查看界面是否提示重启成功。

    • 是,执行18
    • 否,执行19

  6. 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。

    • 是,处理完毕。
    • 否,执行19

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“DBService”和“NodeAgent”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。