ALM-14009 故障DataNode数量超过阈值（2.x及以前版本）

告警解释

系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量，并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的DataNode数量超出阈值范围时，产生该告警。

故障状态的DataNode数量小于或等于阈值时，告警恢复。

告警属性

告警ID	告警级别	可自动清除
14009	严重	是

告警参数

参数名称	参数含义
ServiceName	产生告警的服务名称。
RoleName	产生告警的角色名称。
HostName	产生告警的主机名。
Trigger condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

故障状态的DataNode节点无法提供HDFS服务。

可能原因

DataNode故障或者负荷过高。
NameNode和DataNode之间的网络断连或者繁忙。
NameNode负荷过高。

处理步骤

查看DataNode是否故障。
1. 在集群节点使用客户端，执行hdfs dfsadmin -report命令，可以查看Dead datanodes项对应的数量显示以及处于故障状态的DataNode信息。
  - 是，执行1.b。
  - 否，执行2.a。
2. 在MRS集群详情页面，单击“组件管理 > HDFS > 实例”，检查对应DataNode是否处于停止状态。
  - 是，执行1.c。
  - 否，执行2.a。
3. 勾选对应的DataNode实例，单击“更多 > 重启实例”进行重启，等待5分钟后，然后查看本告警是否恢复。
  - 是，处理完毕。
  - 否，执行2.a。
查看NameNode和DataNode之间的网络情况。
1. 登录处于故障状态DataNode的业务平面IP节点，执行ping NameNode的IP地址命令以检查DataNode和NameNode之间的网络是否异常。
  - 是，执行2.b。
  - 否，执行3.a。
2. 修复网络故障，等待5分钟后，查看该告警是否恢复。
  - 是，处理完毕。
  - 否，执行3.a。
查看DataNode是否负荷过高。
1. 在MRS集群详情页面单击“告警管理”，查看否存在“ALM-14008 HDFS DataNode内存使用率超过阈值”的告警。
  - 是，执行3.b。
  - 否，执行4.a。
2. 参考ALM-14008 HDFS DataNode内存使用率超过阈值（2.x及以前版本）的处理步骤，对该异常告警进行处理，查看是否消除该告警。
  - 是，执行3.c。
  - 否，执行4.a。
3. 等待5分钟后，在告警列表中查看本告警是否恢复。
  - 是，处理完毕。
  - 否，执行4.a。
查看NameNode是否负荷过高。
1. 在MRS集群详情页面单击“告警管理”，查看是否存在“ALM-14007 HDFS NameNode内存使用率超过阈值”的告警。
  - 是，执行4.b。
  - 否，执行步骤 5。
2. 参考ALM-14007 HDFS NameNode内存使用率超过阈值（2.x及以前版本）的处理步骤，对该异常告警进行处理，查看是否消除告警。
  - 是，执行4.c。
  - 否，执行步骤 5。
3. 等待5分钟后，在告警列表中查看本告警是否恢复。
  - 是，处理完毕。
  - 否，执行步骤 5。
收集故障信息。
1. 在MRS Manager界面，单击“系统设置 > 日志导出”。
2. 请联系运维人员，并发送已收集的故障日志信息。