更新时间:2024-11-29 GMT+08:00

ALM-16004 Hive服务不可用

告警解释

系统每60秒周期性检测Hive服务状态。当Hive服务不可用时产生该告警。

当Hive服务恢复时,告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

16004

紧急

业务质量告警

Hive

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

系统无法提供数据加载,查询,提取服务。

可能原因

  • Hive服务不可用可能与ZooKeeper、HDFS、Yarn和DBService等基础服务有关,也可能由Hive自身的进程故障引起。
    • ZooKeeper服务异常。
    • HDFS服务异常。
    • Yarn服务异常。
    • DBService服务异常。
    • Hive服务进程故障,如果告警由Hive进程故障引发,告警上报时间可能会延迟5分钟左右。
  • Hive服务和基础服务间的网络通信中断。
  • Hive的HDFS临时目录权限异常。
  • Hive节点本地磁盘空间不足。

处理步骤

检查HiveServer/MetaStore进程状态。

  1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive > 实例”,在Hive实例列表中,查看所有HiveServer或MetaStore实例状态是否都呈现未知状态。

    • 是,执行2
    • 否,执行4

  2. 在Hive实例列表上方,选择“更多 > 重启实例”,重启HiveServer/MetaStore进程。
  3. 在告警列表中,查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行4

检查ZooKeeper服务状态。

  1. 在FusionInsight Manager的告警列表中,查看是否有“进程故障”产生。

    • 是,执行5
    • 否,执行8

  2. 在“进程故障”,查看“服务名”是否为“ZooKeeper”。

    • 是,执行6
    • 否,执行8

  3. 参考“ALM-12007 进程故障”的处理步骤处理该故障。
  4. 在告警列表中,查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行8

检查HDFS服务状态。

  1. 在FusionInsight Manager的告警列表中,查看是否有“HDFS服务不可用”产生。

    • 是,执行9
    • 否,执行11

  2. 参考“ALM-14000 HDFS服务不可用”的处理步骤处理该故障。
  3. 在告警列表中,查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行11

检查Yarn服务状态。

  1. 在FusionInsight Manager的告警列表中,查看是否有“Yarn服务不可用”产生。

    • 是,执行12
    • 否,执行14

  2. 参考“ALM-18000 Yarn服务不可用”的处理步骤处理该故障。
  3. 在告警列表中,查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行14

检查DBService服务状态。

  1. 在FusionInsight Manager的告警列表中,查看是否有“DBService服务不可用”产生。

    • 是,执行15
    • 否,执行17

  2. 参考“ALM-27001 DBService服务不可用”的处理步骤处理该故障。
  3. 在告警列表中,查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行17

检查Hive与ZooKeeper、HDFS、Yarn和DBService之间的网络连接。

  1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive”。
  2. 单击“实例”。

    显示HiveServer实例列表。

  3. 单击“HiveServer”行的“主机名称”。

    弹出HiveServer主机状态页面。

  4. 记录“基本信息”下的IP地址。
  5. omm用户通过20获取的IP地址登录HiveServer所在的主机。
  1. 执行ping命令,查看HiveServer所在主机与ZooKeeper、HDFS、Yarn和DBService服务所在主机的网络连接是否正常。(获取ZooKeeper、HDFS、Yarn和DBService服务所在主机的IP地址的方式和获取HiveServer IP地址的方式相同。)

    • 是,执行31
    • 否,执行23

  2. 联系网络管理员恢复网络。
  3. 在告警列表中,查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行25

检查HDFS临时目录权限。

  1. 登录客户端所在节点,执行以下命令进入HDFS客户端安装目录。

    cd 客户端安装目录

    source bigdata_env

    kinit 具有supergroup组权限的用户(普通集群跳过该步骤)

  2. 执行命令以下命令查看数据仓库目录权限是否为770:

    hdfs dfs -ls /tmp | grep hive-scratch

    • 是,执行29
    • 否,执行27

  3. 执行以下命令修复默认数据仓库权限:

    hdfs dfs -chmod 770 /tmp/hive-scratch

  4. 等待几分钟查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行29

检查本地磁盘空间是否正常。

  1. 执行df -h命令检查磁盘使用情况,查看“/”、“/srv”、“/var”和集群安装目录(默认“/opt”)挂载的磁盘使用是否超过95%。

    • 是,执行30
    • 否,执行31

  2. 清理对应目录下无用信息,保证可用磁盘空间大于80%,等待几分钟查看“Hive服务不可用”告警是否清除。

    • 是,处理完毕。
    • 否,执行31

收集故障信息。

  1. 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的如下节点信息。

    • ZooKeeper
    • HDFS
    • Yarn
    • DBService
    • Hive

  3. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。