更新时间:2024-08-13 GMT+08:00
分享

ALM-43001 Spark2x服务不可用

告警解释

系统每300秒周期性检测Spark2x服务状态,当检测到Spark2x服务不可用时产生该告警。

Spark2x服务恢复时,告警清除。

MRS 3.3.0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。

告警属性

告警ID

告警级别

是否自动清除

43001

紧急

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

用户提交的Spark任务执行失败。

可能原因

  • KrbServer服务异常。
  • LdapServer服务异常。
  • ZooKeeper服务异常。
  • HDFS服务异常。
  • Yarn服务异常。
  • 对应的Hive服务异常。
  • Spark2x assembly包异常。
  • NameNode节点内存不足。
  • Spark进程内存不足。

处理步骤

若告警原因为:Spark2x assembly包异常,则表示Spark的包存在异常,等待10分钟左右,告警自动恢复。

检查Spark2x依赖的服务是否有服务不可用告警。

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。
  2. 在告警列表中,查看是否存在以下告警:

    • ALM-25500 KrbServer服务不可用
    • ALM-25000 LdapServer服务不可用
    • ALM-13000 ZooKeeper服务不可用
    • ALM-14000 HDFS服务不可用
    • ALM-18000 Yarn服务不可用
    • ALM-16004 Hive服务不可用
    • 是,执行3
    • 否,执行4

  3. 根据对应服务不可用告警帮助提供的故障处理对应告警。

    告警全部恢复后,等待几分钟,检查本告警是否恢复。

    • 是,处理完毕。
    • 否,执行4

检查NameNode节点内存是否不足

  1. 检查NameNode节点内存,查看是否有节点存在内存不足的问题。

    • 是,执行5
    • 否,执行6

  2. 重启NameNode释放内存,检查本告警是否恢复。

    • 是,处理完毕。
    • 否,执行6

      重启实例期间实例不可用,当前实例节点的任务会执行失败。

检查Spark进程内存是否不足

  1. 排查是否有内存相关的修改导致Spark进程内存不足。

    • 是,执行7
    • 否,执行8

  2. 保证Spark进程内存充足,或者考虑集群扩容,检查本告警是否恢复。

    • 是,处理完毕。
    • 否,执行8

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的如下节点信息。(Hive为根据告警定位信息中的“服务名”确定的具体Hive服务。)

    • KrbServer
    • LdapServer
    • ZooKeeper
    • HDFS
    • Yarn
    • Hive

  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

相关文档