更新时间:2024-11-29 GMT+08:00

ALM-43001 Spark服务不可用

告警解释

系统每300秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。

Spark服务恢复时,告警清除。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

43001

紧急

处理错误告警

Spark

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

用户提交的Spark任务执行失败。

可能原因

  • KrbServer服务异常。
  • LdapServer服务异常。
  • ZooKeeper服务异常。
  • HDFS服务异常。
  • Yarn服务异常。
  • 对应的Hive服务异常。
  • Spark assembly包异常。
  • NameNode节点内存不足。
  • Spark进程内存不足。

处理步骤

若告警原因为:Spark assembly包异常,则表示Spark的包存在异常,等待10分钟左右,告警自动恢复。

检查Spark依赖的服务是否有服务不可用告警。

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。
  2. 在告警列表中,查看是否存在以下告警:

    • ALM-25500 KrbServer服务不可用
    • ALM-25000 LdapServer服务不可用
    • ALM-13000 ZooKeeper服务不可用
    • ALM-14000 HDFS服务不可用
    • ALM-18000 Yarn服务不可用
    • ALM-16004 Hive服务不可用
    • 是,执行3
    • 否,执行4

  3. 根据对应服务不可用告警帮助提供的故障处理对应告警。

    告警全部恢复后,等待几分钟,检查本告警是否恢复。

    • 是,处理完毕。
    • 否,执行4

检查NameNode节点内存是否不足

  1. 检查NameNode节点内存,查看是否有节点存在内存不足的问题。

    • 是,执行5
    • 否,执行6

  2. 重启NameNode释放内存,检查本告警是否恢复。

    • 是,处理完毕。
    • 否,执行6

检查Spark进程内存是否不足

  1. 排查是否有内存相关的修改导致Spark进程内存不足。

    • 是,执行7
    • 否,执行8

  2. 保证Spark进程内存充足,或者考虑集群扩容,检查本告警是否恢复。

    • 是,处理完毕。
    • 否,执行8

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的如下节点信息。(Hive为根据告警定位信息中的“服务名”确定的具体Hive服务。)

    • KrbServer
    • LdapServer
    • ZooKeeper
    • HDFS
    • Yarn
    • Hive

  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。