文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-27001 DBService服务不可用(2.x及以前版本)
更新时间:2024-08-13 GMT+08:00
分享

ALM-27001 DBService服务不可用(2.x及以前版本)

告警解释

告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。

DBService服务恢复时,告警清除。

告警属性

告警ID

告警级别

可自动清除

27001

致命

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。

可能原因

  • 浮动IP不存在。
  • 没有主DBServer实例。
  • 主备DBServer进程都异常。

处理步骤

  1. 检查集群环境中是否存在浮动IP。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 单击“DBService > 实例”。
    3. 查看是否有主实例存在。
      • 是,执行1.d
      • 否,执行2.a
    4. 选择主DBServer实例,记录IP地址。
    5. 登录上述IP所在主机,执行ifconfig命令查看DBService的浮动IP在该节点是否存在。
      • 是,执行1.f
      • 否,执行2.a
    6. 执行ping 浮动IP地址命令检查DBService的浮动IP的状态,是否能ping通。
      • 是,执行1.g
      • 否,执行2.a
    7. 登录DBService浮动IP所在主机,执行ifconfig interface down命令删除浮动IP地址。
    8. 单击“组件管理 > DBService > 更多 > 重启服务”重启DBService服务,检查是否启动成功。
      • 是,执行1.i
      • 否,执行2.a
    9. 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。
      • 是,处理完毕。
      • 否,执行步骤13

  2. 检查主DBServer实例状态。

    1. 选择角色状态异常的DBServer实例,记录IP地址。
    2. 在“告警管理”页面,查看是否有上述IP所在主机DBServer实例ALM-12007 进程故障告警产生。
      • 是,执行2.c
      • 否,执行4
    3. 按ALM-12007 进程故障提供的步骤处理该告警。
    4. 等待5分钟,查看告警列表中的DBService服务不可用告警是否恢复。
      • 是,处理完毕。
      • 否,执行4

  3. 检查主备DBServer数据库进程状态。

    1. 登录DBService浮动IP所在主机,执行sudo su - rootsu - omm命令切换至omm用户,使用cd ${BIGDATA_HOME}/FusionInsight/dbservice/进入DBService服务的安装目录。
    2. 执行sh sbin/status-dbserver.sh命令查看DBService的主备HA进程状态,状态是否查询成功。
      • 是,执行3.c
      • 否,执行4
    3. 查看主备HA进程是否都处于abnormal状态。
      • 是,执行3.d
      • 否,执行4
    4. 单击“组件管理 > DBService > 更多 > 重启服务”重启DBService服务,检查是否启动成功。
      • 是,执行3.e
      • 否,执行4
    5. 等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。
      • 是,处理完毕。
      • 否,执行4

  4. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

相关文档