更新时间:2024-12-06 GMT+08:00
ALM-16004 Hive服务不可用(2.x及以前版本)
告警解释
系统每30秒周期性检测Hive服务状态。当Hive服务不可用时产生该告警。
当Hive服务恢复时,告警恢复。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
16004 |
致命 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
对系统的影响
系统无法提供数据加载,查询,提取服务。
可能原因
- Hive服务不可用可能与ZooKeeper、HDFS、Yarn和DBService等基础服务有关,也可能由Hive自身的进程故障引起。
- ZooKeeper服务异常。
- HDFS服务异常。
- Yarn服务异常。
- DBService服务异常。
- Hive服务进程故障,如果告警由Hive进程故障引发,告警上报时间可能会延迟5分钟左右。
- Hive服务和基础服务间的网络通信中断。
处理步骤
- 检查HiveServer/MetaStore进程状态。
- 检查ZooKeeper服务状态。
- 检查HDFS服务状态。
- 登录MRS集群详情页面,选择“告警管理”。
- 在告警列表中,查看是否有ALM-14000 HDFS服务不可用产生。
- 参考ALM-14000 HDFS服务不可用(2.x及以前版本)的处理步骤处理该故障。
- 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行4。
- 检查Yarn服务状态。
- 登录MRS集群详情页面,选择“告警管理”。
- 在告警列表中,查看是否有ALM-18000 Yarn服务不可用产生。
- 参考ALM-18000 Yarn服务不可用(2.x及以前版本)的处理步骤处理该故障。
- 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行4。
- 检查DBService服务状态。
- 登录MRS集群详情页面,选择“告警管理”。
- 在告警列表中,查看是否有“ALM-27001 DBService服务不可用”产生。
- 参考ALM-27001 DBService服务不可用(2.x及以前版本)的处理步骤处理该故障。
- 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行6。
- 检查Hive与ZooKeeper、HDFS、Yarn和DBService之间的网络连接。
- 登录MRS集群详情页面,选择“组件管理”。
- 单击“Hive”。
- 单击“实例”。
- 单击“HiveServer”行的“主机名”。
- 记录“概要信息”下的IP地址。
- 通过6.e获取的IP地址登录HiveServer所在的主机。
- 执行ping命令,查看HiveServer所在主机与ZooKeeper、HDFS、Yarn和DBService服务所在主机的网络连接是否正常。(获取ZooKeeper、HDFS、Yarn和DBService服务所在主机的IP地址的方式和获取HiveServer IP地址的方式相同。)
- 联系运维人员恢复网络。
- 在告警列表中,查看“ALM-16004 Hive服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行7。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。
参考信息
无。
父主题: MRS集群告警处理参考