ALM-18032 JobHistoryServer升主失败
告警解释
在JobHistoryServer实例升主的过程中,JhsHaDaemon进程启动JobHistoryServer失败时会上报当前告警。
当节点的JobHistoryServer启动成功或者为备时,告警清除。
该告警仅适用于MRS 3.6.0及之后版本。
告警属性
|
告警ID |
告警级别 |
是否可自动清除 |
|---|---|---|
|
18032 |
紧急 |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息 |
来源 |
产生告警的集群名称。 |
|
服务名 |
产生告警的服务名称。 |
|
|
角色名 |
产生告警的角色名称。 |
|
|
主机名 |
产生告警的主机名。 |
|
|
附加信息 |
触发条件 |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
- 无法查看已完成作业的日志
- Hive on MR作业偶现状态异常。
可能原因
- ZooKeeper服务异常。
- HDFS服务异常。
- 浮动ip异常。
处理步骤
检查ZooKeeper服务状态。
- 登录Manager页面,选择“集群 > 服务”,在MRS的服务列表中,查看ZooKeeper运行状态是否为“良好”。
- 选择“运维 > 告警 > 告警”,在告警列表中,查看是否有“ALM-13000 ZooKeeper服务不可用”告警产生。
- 参考“ALM-13000 ZooKeeper服务不可用”的处理步骤处理该故障。
- 等待5分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 5。
检查HDFS服务状态。
- 选择“运维 > 告警 > 告警”,在告警列表中,查看是否有“ALM-14000 HDFS服务不可用”告警产生。
- 参考“ALM-14000 HDFS服务不可用”的处理步骤处理该故障。
- 等待5分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 8。
- 选择“集群 > 服务 > HDFS”,在“概览”页面查看HDFS“安全模式”是否为“ON”。
- 使用root用户登录安装HDFS客户端的节点,用户密码为安装前用户自定义,请咨询系统管理员,执行以下命令配置环境变量并认证用户:
cd 客户端安装目录
source bigdata_env
kinit hdfs(集群未启用Kerberos认证(普通模式)请跳过该操作)
hdfs用户密码请咨询集群管理员获取。
- 执行以下命令手动退出安全模式:
hdfs dfsadmin -safemode leave
- 等待5分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 12。
检查是否浮动IP异常。
- 在Manager界面,选择“集群 > 服务 > Mapreduce > 配置 > 全部配置”,查看并记录“JHS_FLOAT_IP”参数的值。
- 在Mapreduce服务“实例”页签,查看并记录JobHistoryServer实例的业务IP地址,使用root用户登录安装JobHistoryServer的节点,使用以下命令检查步骤 12中的IP是否可以访问。
ping 步骤 12中的IP地址
- 执行以下命令查看浮动IP是否为步骤 12查询到的JobHistoryServer的浮动IP。
ip addr
- 执行以下命令删除浮动IP。
ip addr del IP地址 dev 网卡名称
- 在Manager页面选择“集群 > 服务 > Yarn > 实例”,勾选所有JobHistoryServer实例,选择“更多 > 重启实例”,重新启动JobHistoryServer。
- 等待5分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 18。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。