更新时间:2024-11-22 GMT+08:00
ALM-26051 Storm服务不可用(2.x及以前版本)
告警解释
系统按照30秒的周期检测Storm服务是否可用,当集群全部的Nimbus实例所在节点异常时,Storm服务不可用,系统产生此告警。
当Storm服务恢复正常,告警自动清除。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
26051 |
致命 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
对系统的影响
- 集群无法对外提供Storm服务。
- 用户无法执行新的Storm任务。
可能原因
- Kerberos组件故障
- ZooKeeper组件故障或假死
- Storm集群中主备Nimbus状态异常
处理步骤
- 检查Kerberos组件状态。未启用Kerberos认证的集群无需检查Kerberos状态,请执行2。
- 登录MRS集群详情页面,选择“组件管理”。
- 查看Kerberos服务的健康状态是否为“良好”。
- 参考ALM-25500 KrbServer服务不可用(2.x及以前版本)的相关维护信息进行操作。
- 再次执行1.b。
- 检查ZooKeeper组件状态。
- 查看ZooKeeper服务的健康状态是否为“良好”。
- 如果ZooKeeper服务停止运行,则启动服务,否则参考ALM-13000 ZooKeeper服务不可用(2.x及以前版本)的相关维护信息进行操作。
- 再次执行2.a。
- 检查主备Nimbus状态。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。
参考信息
无。
父主题: MRS集群告警处理参考