WebHCat健康状态异常导致启动失败
用户问题
WebHCat实例启动失败。
问题现象
在Manager页面上查看到WebHCat实例的健康状态为“故障”,并上报“ALM-12007 进程故障”告警,该告警的服务名称为“Hive”,实例名称为“WebHCat”。且重启Hive服务报错。
查看WebCat实例的日志“/var/log/Bigdata/hive/webhcat/webhcat.log”报错“Service not found in Kerberos database”和“Address already in use”。
处理步骤
- 依次登录WebHCat实例所在节点检查“/etc/hosts”文件中的IP及主机名称映射关系是否正确。且“/etc/hostname”和“/etc/HOSTNAME”文件的WebHCat配置需与“/etc/hosts”保持一致,若不一致则需手动修改。
WebHCat实例的IP地址及主机名称映射关系可登录FusionInsight Manager界面,选择“集群 > 服务 > Hive > 实例”查看。
- 登录WebHCat实例所在节的任一节点,执行以下命令切换到omm用户。
su - omm
- 执行以下命令查看是否存在WebHCat进程。
ps -ef|grep webhcat|grep -v grep
若存在,则需执行以下命令结束WebHCat进程:
kill -9 ${webhcat_pid}
- 登录FusionInsight Manager,选择“集群 > 服务 > Hive > 实例”,勾选所有WebHCat实例,选择“更多 > 重启实例”,等待WebHCat重启成功即可。