文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-28001 Spark服务不可用(2.x及以前版本)
更新时间:2024-08-13 GMT+08:00
分享

ALM-28001 Spark服务不可用(2.x及以前版本)

告警解释

系统每30秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。

Spark服务恢复时,告警清除。

告警属性

告警ID

告警级别

可自动清除

28001

致命

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

用户提交的Spark任务执行失败。

可能原因

  • KrbServer服务异常。
  • LdapServer服务异常。
  • ZooKeeper服务异常。
  • HDFS服务故障。
  • Yarn服务故障。
  • 对应的Hive服务故障。

处理步骤

  1. 检查Spark依赖的服务是否有服务不可用告警。

    1. 登录MRS集群详情页面,选择“告警管理”。
    2. 在告警列表中,查看是否存在以下告警:
      1. ALM-25500 KrbServer服务不可用
      2. ALM-25000 LdapServer服务不可用
      3. ALM-13000 ZooKeeper服务不可用
      4. ALM-14000 HDFS服务不可用
      5. ALM-18000 Yarn服务不可用
      6. ALM-16004 Hive服务不可用
      • 是,执行1.c
      • 否,执行2
    3. 根据对应服务不可用告警帮助提供的故障处理对应告警。

      告警全部恢复后,等待几分钟,检查本告警是否恢复。

      • 是,处理完毕。
      • 否,执行2

  2. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

相关文档