ALM-43001 Spark2x服务不可用
告警解释
系统每300秒周期性检测Spark2x服务状态,当检测到Spark2x服务不可用时产生该告警。
Spark2x服务恢复时,告警清除。
MRS 3.3.0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
43001 |
紧急 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
对系统的影响
用户提交的Spark任务执行失败。
可能原因
- KrbServer服务异常。
- LdapServer服务异常。
- ZooKeeper服务异常。
- HDFS服务异常。
- Yarn服务异常。
- 对应的Hive服务异常。
- Spark2x assembly包异常。
- NameNode节点内存不足。
- Spark进程内存不足。
处理步骤
若告警原因为:Spark2x assembly包异常,则表示Spark的包存在异常,等待10分钟左右,告警自动恢复。
检查Spark2x依赖的服务是否有服务不可用告警。
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。
- 在告警列表中,查看是否存在以下告警:
- ALM-25500 KrbServer服务不可用
- ALM-25000 LdapServer服务不可用
- ALM-13000 ZooKeeper服务不可用
- ALM-14000 HDFS服务不可用
- ALM-18000 Yarn服务不可用
- ALM-16004 Hive服务不可用
- 根据对应服务不可用告警帮助提供的故障处理对应告警。
告警全部恢复后,等待几分钟,检查本告警是否恢复。
- 是,处理完毕。
- 否,执行4。
检查NameNode节点内存是否不足。
- 检查NameNode节点内存,查看是否有节点存在内存不足的问题。
- 重启NameNode释放内存,检查本告警是否恢复。
- 是,处理完毕。
- 否,执行6。
重启实例期间实例不可用,当前实例节点的任务会执行失败。
检查Spark进程内存是否不足。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。