更新时间:2024-09-30 GMT+08:00

WebHCat健康状态异常导致启动失败

用户问题

WebHCat实例启动失败。

问题现象

在Manager页面上查看到WebHCat实例的健康状态为“故障”,并上报“ALM-12007 进程故障”告警,该告警的服务名称为“Hive”,实例名称为“WebHCat”。且重启Hive服务报错。

查看WebCat实例的日志“/var/log/Bigdata/hive/webhcat/webhcat.log”报错“Service not found in Kerberos database”和“Address already in use”。

处理步骤

  1. 依次登录WebHCat实例所在节点检查“/etc/hosts”文件中的IP及主机名称映射关系是否正确。且“/etc/hostname”和“/etc/HOSTNAME”文件的WebHCat配置需与“/etc/hosts”保持一致,若不一致则需手动修改。

    WebHCat实例的IP地址及主机名称映射关系可登录FusionInsight Manager界面,选择“集群 > 服务 > Hive > 实例”查看。

  2. 登录WebHCat实例所在节的任一节点,执行以下命令切换到omm用户。

    su - omm

  3. 执行以下命令查看是否存在WebHCat进程。

    ps -ef|grep webhcat|grep -v grep

    若存在,则需执行以下命令结束WebHCat进程:

    kill -9 ${webhcat_pid}

  4. 登录FusionInsight Manager,选择“集群 > 服务 > Hive > 实例”,勾选所有WebHCat实例,选择“更多 > 重启实例”,等待WebHCat重启成功即可。