更新时间:2023-03-17 GMT+08:00

ALM-27001 DBService服务不可用

告警解释

告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。

DBService服务恢复时,告警清除。

告警属性

告警ID

告警级别

是否自动清除

27001

紧急

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。

可能原因

  • 浮动IP不存在。
  • 没有主DBServer实例。
  • 主备DBServer进程都异常。

处理步骤

检查集群环境中是否存在浮动IP。

  1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > DBService > 实例”。
  2. 查看是否有主实例存在。

    • 是,执行3
    • 否,执行9

  3. 选择主DBServer实例,记录IP地址。
  4. root用户登录上述IP所在主机,执行ifconfig命令查看DBService的浮动IP在该节点是否存在

    • 是,执行5
    • 否,执行9

  5. 执行ping 浮动IP地址命令检查DBService的浮动IP的状态,是否能ping通。

    • 是,执行6
    • 否,执行9

  6. root用户登录DBService浮动IP所在主机,执行以下命令删除浮动IP地址。

    ifconfig interface down

  7. 在FusionInsight Manager首页,选择“ 集群 > 待操作集群的名称 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,检查是否启动成功。

    • 是,执行8
    • 否,执行9

  8. 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。

    • 是,处理完毕。
    • 否,执行14

检查主DBServer实例状态。

  1. 选择角色状态异常的DBServer实例,记录IP地址。
  2. 在“告警”页面,查看是否有上述IP所在主机DBServer实例“进程故障”告警产生。

    • 是,执行11
    • 否,执行19

  3. 按“ALM-12007 进程故障”提供的步骤处理该告警。
  4. 等待5分钟,查看告警列表中的DBService服务不可用告警是否恢复。

    • 是,处理完毕。
    • 否,执行19

检查主备DBServer数据库进程状态。

  1. root用户登录DBService浮动IP所在主机,执行su - omm命令切换至omm用户。
  2. 执行cd ${DBSERVER_HOME}命令进入DBService服务的安装目录。
  3. 执行sh sbin/status-dbserver.sh命令查看DBService的主备HA进程状态,状态是否查询成功。

    HAMode 
    double 
    
    NodeName                  HostName               HAVersion                StartTime                HAActive             HAAllResOK           HARunPhase          
    10_5_89_12                host01                 V100R001C01              2019-06-13 21:33:09      active               normal               Actived             
    10_5_89_66                host03                 V100R001C01              2019-06-13 21:33:09      standby              normal               Deactived           
    
    NodeName                  ResName                ResStatus                ResHAStatus              ResType             
    10_5_89_12                floatip                Normal                   Normal                   Single_active       
    10_5_89_12                gaussDB                Active_normal            Normal                   Active_standby      
    10_5_89_66                floatip                Stopped                  Normal                   Single_active       
    10_5_89_66                gaussDB                Standby_normal           Normal                   Active_standby  
    • 是,执行16
    • 否,执行19

  4. 查看主备HA进程是否都处于abnormal状态。

    • 是,执行17
    • 否,执行19

  5. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,查看界面是否提示重启成功。

    • 是,执行18
    • 否,执行19

  6. 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。

    • 是,处理完毕。
    • 否,执行19

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“DBService”和“NodeAgent”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。