更新时间:2024-12-06 GMT+08:00
ALM-23001 Loader服务不可用(2.x及以前版本)
告警解释
系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
23001 |
致命 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
对系统的影响
如果Loader服务不可用,数据加载,导入,转换的功能也不可用。
可能原因
- Loader服务依赖的内部服务异常。
- ZooKeeper服务异常。
- HDFS服务异常。
- DBService服务异常。
- Yarn服务异常。
- Mapreduce服务异常。
- 环境故障:网络异常,Loader服务无法与其依赖的内部服务通信,无法提供服务。
- 软件故障:Loader服务无法正常运行。
处理步骤
- 检查ZooKeeper服务状态。
- 登录MRS集群详情页面,选择“组件管理”。
- 选择“ZooKeeper”查看ZooKeeper的健康状态是否正常。
- 单击“更多 > 重启服务”重新启动ZooKeeper服务实例。重启完成后在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行1.d。
- 在告警列表中,查看是否有“ALM-12007 进程故障”告警产生。
- 在“ALM-12007 进程故障”的“告警详情”区域,查看定位信息的“ServiceName”是否为“ZooKeeper”。
- 参考ALM-12007 进程故障(2.x及以前版本)的处理步骤处理该故障。
- 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行2.a。
- 检查HDFS服务状态。
- 登录MRS集群详情页面,选择“告警管理”。
- 在告警列表中,查看是否有“ALM-14000 HDFS服务不可用”告警产生。
- 参考ALM-14000 HDFS服务不可用(2.x及以前版本)的处理步骤处理该故障。
- 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行3.a。
- 检查DBService服务状态。
- 检查MapReduce服务状态。
- 检查Yarn服务状态。
- 登录MRS集群详情页面,选择“组件管理”。
- 选择“Yarn”查看Yarn的健康状态是否正常。
- 单击“更多 > 重启服务”重新启动Yarn服务实例。重启完成后在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行5.d。
- 在MRS Manager的告警列表中,查看是否有“ALM-18000 Yarn服务不可用”告警产生。
- 参考ALM-18000 Yarn服务不可用(2.x及以前版本)的处理步骤处理该故障。
- 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行6.a。
- 检查Loader和依赖组件之间的网络连接。
- 登录MRS集群详情页面,选择“组件管理”。
- 单击“Loader”。
- 单击“实例”,显示Sqoop实例列表。
- 记录所有Sqoop实例的“管理IP”。
- 登录6.d获取的IP地址所在的主机,执行以下命令切换用户。
sudo su - root
su - omm
- 执行ping命令,查看Sqoop实例所在主机和依赖组件所在主机的网络连接是否正常。(依赖组件包括ZooKeeper、DBService、HDFS、Mapreduce和Yarn等,获取依赖组件所在主机的IP地址的方式和获取Sqoop实例的IP地址的方式相同。)
- 联系网络管理员恢复网络。
- 在告警列表中,查看“ALM-23001 Loader服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行7。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。
父主题: MRS集群告警处理参考