更新时间:2024-01-04 GMT+08:00

ALM-23001 Loader服务不可用(2.x及以前版本)

告警解释

系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

23001

致命

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

如果Loader服务不可用,数据加载,导入,转换的功能也不可用。

可能原因

  • Loader服务依赖的内部服务异常。
    • ZooKeeper服务异常。
    • HDFS服务异常。
    • DBService服务异常。
    • Yarn服务异常。
    • Mapreduce服务异常。
  • 环境故障:网络异常,Loader服务无法与其依赖的内部服务通信,无法提供服务。
  • 软件故障:Loader服务无法正常运行。

处理步骤

  1. 检查ZooKeeper服务状态。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 选择“ZooKeeper”查看ZooKeeper的健康状态是否正常。
      • 是,执行1.d
      • 否,执行1.c
    3. 单击“更多 > 重启服务”重新启动ZooKeeper服务实例。重启完成后在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行1.d
    4. 在告警列表中,查看是否有“ALM-12007 进程故障”告警产生。
      • 是,执行1.e
      • 否,执行2.a
    5. 在“ALM-12007 进程故障”的“告警详情”区域,查看定位信息的“ServiceName”是否为“ZooKeeper”。
      • 是,执行1.f
      • 否,执行2.a
    6. 参考“ALM-12007 进程故障”的处理步骤处理该故障。
    7. 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行2.a

  2. 检查HDFS服务状态。

    1. 登录MRS集群详情页面,选择“告警管理”。
    2. 在告警列表中,查看是否有“ALM-14000 HDFS服务不可用”告警产生。
      • 是,执行2.c
      • 否,执行3.a
    3. 参考“ALM-14000 HDFS服务不可用”的处理步骤处理该故障。
    4. 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行3.a

  3. 检查DBService服务状态。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 选择“DBService”查看DBService的健康状态是否正常。
      • 是,执行4.a
      • 否,执行3.c
    3. 单击“更多 > 重启服务”重新启动DBService服务实例。重启完成后在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行4.a

  4. 检查MapReduce服务状态。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 选择“Mapreduce”查看Mapreduce的健康状态是否正常。
      • 是,执行5.a
      • 否,执行4.c
    3. 单击“更多 > 重启服务”重新启动Mapreduce服务。重启完成后在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行5.a

  5. 检查Yarn服务状态。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 选择“Yarn”查看Yarn的健康状态是否正常。
      • 是,执行5.d
      • 否,执行5.c
    3. 单击“更多 > 重启服务”重新启动Yarn服务实例。重启完成后在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行5.d
    4. 在MRS Manager的告警列表中,查看是否有“ALM-18000 Yarn服务不可用”告警产生。
      • 是,执行5.e
      • 否,执行6.a
    5. 参考“ALM-18000 Yarn服务不可用”的处理步骤处理该故障。
    6. 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行6.a

  6. 检查Loader和依赖组件之间的网络连接。

    1. 登录MRS集群详情页面,选择“组件管理”。
    2. 单击“Loader”。
    3. 单击“实例”,显示Sqoop实例列表。
    4. 记录所有Sqoop实例的“管理IP”。
    5. 登录6.d获取的IP地址所在的主机,执行以下命令切换用户。

      sudo su - root

      su - omm

    6. 执行ping命令,查看Sqoop实例所在主机和依赖组件所在主机的网络连接是否正常。(依赖组件包括ZooKeeper、DBService、HDFS、Mapreduce和Yarn等,获取依赖组件所在主机的IP地址的方式和获取Sqoop实例的IP地址的方式相同。)
      • 是,执行7
      • 否,执行6.g
    7. 联系网络管理员恢复网络。
    8. 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
      • 是,处理完毕。
      • 否,执行7

  7. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。