文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-16004 Hive服务不可用(2.x及以前版本)
更新时间:2024-11-22 GMT+08:00
分享

ALM-16004 Hive服务不可用(2.x及以前版本)

告警解释

系统每30秒周期性检测Hive服务状态。当Hive服务不可用时产生该告警。

当Hive服务恢复时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

16004

致命

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

系统无法提供数据加载,查询,提取服务。

可能原因

  • Hive服务不可用可能与ZooKeeper、HDFS、Yarn和DBService等基础服务有关,也可能由Hive自身的进程故障引起。
    • ZooKeeper服务异常。
    • HDFS服务异常。
    • Yarn服务异常。
    • DBService服务异常。
    • Hive服务进程故障,如果告警由Hive进程故障引发,告警上报时间可能会延迟5分钟左右。
  • Hive服务和基础服务间的网络通信中断。

处理步骤

  1. 检查HiveServer/MetaStore进程状态。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 单击“Hive > 实例”,在Hive实例列表中,查看所有HiveSserver/MetaStore实例状态是否都呈现未知状态。
      • 是,执行1.c
      • 否,执行2
    3. 在Hive实例列表上方,单击“更多 > 重启实例”,重启HiveServer/MetaStore进程。
    4. 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行2

  2. 检查ZooKeeper服务状态。

    1. 登录MRS集群详情页面,选择“告警管理”。
    2. 在告警列表中,查看是否有ALM-12007 进程故障产生。
      • 是,执行2.c
      • 否,执行3
    3. 在ALM-12007 进程故障的“告警详情”区域,查看“ServiceName”是否为“ZooKeeper”。
      • 是,执行2.d
      • 否,执行3
    4. 参考ALM-12007 进程故障(2.x及以前版本)的处理步骤处理该故障。
    5. 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行3

  3. 检查HDFS服务状态。

    1. 登录MRS集群详情页面,选择“告警管理”。
    2. 在告警列表中,查看是否有ALM-14000 HDFS服务不可用产生。
      • 是,执行3.c
      • 否,执行4
    3. 参考ALM-14000 HDFS服务不可用(2.x及以前版本)的处理步骤处理该故障。
    4. 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行4

  4. 检查Yarn服务状态。

    1. 登录MRS集群详情页面,选择“告警管理”。
    2. 在告警列表中,查看是否有ALM-18000 Yarn服务不可用产生。
      • 是,执行4.c
      • 否,执行4
    3. 参考ALM-18000 Yarn服务不可用(2.x及以前版本)的处理步骤处理该故障。
    4. 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行4

  5. 检查DBService服务状态。

    1. 登录MRS集群详情页面,选择“告警管理”。
    2. 在告警列表中,查看是否有“ALM-27001 DBService服务不可用”产生。
      • 是,执行5.c
      • 否,执行6
    3. 参考ALM-27001 DBService服务不可用(2.x及以前版本)的处理步骤处理该故障。
    4. 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行6

  6. 检查Hive与ZooKeeper、HDFS、Yarn和DBService之间的网络连接。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 单击“Hive”。
    3. 单击“实例”。

      显示HiveServer实例列表。

    4. 单击“HiveServer”行的“主机名”。

      弹出HiveServer主机状态页面。

    5. 记录“概要信息”下的IP地址。
    6. 通过6.e获取的IP地址登录HiveServer所在的主机。
    7. 执行ping命令,查看HiveServer所在主机与ZooKeeper、HDFS、Yarn和DBService服务所在主机的网络连接是否正常。(获取ZooKeeper、HDFS、Yarn和DBService服务所在主机的IP地址的方式和获取HiveServer IP地址的方式相同。)
      • 是,执行7
      • 否,执行6.h
    8. 联系运维人员恢复网络。
    9. 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行7

  7. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

相关文档