文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-14000 HDFS服务不可用

更新时间：2025-08-09 GMT+08:00

查看PDF

ALM-14000 HDFS服务不可用

告警解释

系统每60秒周期性检测NameService的服务状态，当检测到所有的NameService服务都异常时，就会认为HDFS服务不可用，此时产生该告警。

至少一个NameService服务正常后，系统认为HDFS服务恢复，告警清除。

告警属性

告警ID	告警级别	是否自动清除
14000	紧急	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。

对系统的影响

无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。

可能原因

ZooKeeper服务异常。
所有NameService服务异常。

业务请求量过大，HDFS健康检查读写文件异常。
HDFS FullGC导致健康检查失败。

处理步骤

检查ZooKeeper服务状态。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”页面，查看系统是否上报“ALM-13000 ZooKeeper服务不可用”告警。
- 是，执行步骤 2。
- 否，执行步骤 4。
参考ALM-13000 ZooKeeper服务不可用对ZooKeeper服务状态异常进行处理，然后查看ZooKeeper服务的运行状态是否恢复为“良好”。
- 是，执行步骤 3。
- 否，执行步骤 13。
在“运维 > 告警 > 告警”页面，查看本告警是否恢复。
- 是，处理完毕。
- 否，执行步骤 4。

处理NameService服务异常告警。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”页面，查看是否有“ALM-14010 NameService服务异常”告警。
- 是，执行步骤 5。
- 否，执行步骤 7。
按照ALM-14010 NameService服务异常的处理方法，依次对这些服务异常的NameService进行处理，然后查看是否消除各个NameService服务异常告警。
- 是，执行步骤 6。
- 否，执行步骤 13。
在“运维 > 告警 > 告警”页签，查看该告警是否恢复。
- 是，处理完毕。
- 否，执行步骤 7。

检查是否处理业务请求量过大，导致HDFS健康检查读写文件异常。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”页面，查看是否有“ALM-14021 NameNode RPC处理平均时间超过阈值”或“ALM-14022 NameNode RPC队列平均时间超过阈值”告警。
- 是，执行步骤 8。
- 否，执行步骤 10。
按照ALM-14021 NameNode RPC处理平均时间超过阈值和ALM-14022 NameNode RPC队列平均时间超过阈值的处理方法，依次对这些服务异常的NameService进行处理，然后查看是否消除各个NameService服务异常告警。
- 是，执行步骤 9。
- 否，执行步骤 13。

在“运维 > 告警 > 告警”页签，查看该告警是否恢复。
- 是，处理完毕。
- 否，执行步骤 10。

检查是否HDFS FullGC导致健康检查失败。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”页面，查看是否有“ALM-14014 NameNode进程垃圾回收（GC）时间超过阈值”告警。
- 是，执行步骤 11。
- 否，执行步骤 13。
按照ALM-14014 NameNode进程垃圾回收（GC）时间超过阈值的处理方法，依次对这些服务异常的NameService进行处理，然后查看是否消除各个NameService服务异常告警。
- 是，执行步骤 12。
- 否，执行步骤 13。

在“运维 > 告警 > 告警”页签，查看该告警是否恢复。
- 是，处理完毕。
- 否，执行步骤 13。

收集故障信息。

在FusionInsight Manager首页，单击“运维 > 日志 > 下载”。
在“服务”中勾选待操作集群的如下节点信息。
- ZooKeeper
- HDFS
单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

父主题： MRS集群告警处理参考

上一篇：ALM-13010 配置quota的目录Znode使用率超出阈值

下一篇：ALM-14001 HDFS磁盘空间使用率超过阈值

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消