ALM-14009 Dead DataNode数量超过阈值

告警解释

系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量，并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的DataNode数量超出阈值范围时，产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。

平滑次数为1，故障状态的DataNode数量小于或等于阈值时，告警恢复；平滑次数大于1，故障状态的DataNode数量小于或等于阈值的90%时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
14009	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
NameService名	产生告警的NameService名称。
Trigger condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

故障状态的DataNode节点无法提供HDFS服务。

可能原因

DataNode故障或者负荷过高。
NameNode和DataNode之间的网络断连或者繁忙。
NameNode负荷过高。
DataNode被删除后，没有重启NameNode。

处理步骤

查看DataNode是否故障。

在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > HDFS”。
在“基本信息”区域，单击“NameNode(主)”，进入HDFS WebUI页面。

admin用户默认不具备其他组件的管理权限，如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时，可手动创建具备对应组件管理权限的用户进行登录。
在HDFS WebUI，单击“Datanodes”页签，在“In operation”区域，打开“Filter”下拉菜单，查看是否有“down”选项。
- 是，选择“down”，记录筛选出的DataNode节点的信息，执行4。
- 否，执行8。
在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”，在实例列表中，检查已记录的DataNode节点是否存在。
- 所有已记录的DataNode节点都存在时，执行5。
- 所有已记录的DataNode节点都不存在时，执行6。
- 部分已记录的DataNode节点存在时，执行7。
勾选对应的DataNode实例，选择“更多 > 重启实例”进行重启，重启结束后，查看本告警是否恢复。
- 是，处理完毕。
- 否，执行8。
勾选所有的NameNode实例，选择“更多 > 滚动重启实例”进行重启，重启结束后，查看本告警是否恢复。
- 是，处理完毕。
- 否，执行16。
勾选所有的NameNode实例，选择“更多 > 滚动重启实例”进行重启。重启完成后，勾选对应的DataNode实例，选择“更多 > 重启实例”进行重启，重启结束后，查看本告警是否恢复。
- 是，处理完毕。
- 否，执行8。

查看NameNode和DataNode之间的网络情况。

以root用户登录管理页面上存在且处于故障状态DataNode的业务平面IP节点，执行ping NameNode的IP地址命令以检查DataNode和NameNode之间的网络是否异常。

在FusionInsight Manager界面，单击“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”，在实例列表中可查看处于故障状态DataNode的业务平面IP地址。
- 是，执行9。
- 否，执行10。
修复网络故障，查看该告警是否恢复。
- 是，处理完毕。
- 否，执行10。

查看DataNode是否负荷过高。

在FusionInsight Manager首页，单击“运维 > 告警 > 告警”，查看否存在“ALM-14008 HDFS DataNode内存使用率超过阈值”的告警。
- 是，执行11。
- 否，执行13。
参考“ALM-14008 HDFS DataNode内存使用率超过阈值”的处理步骤，对该异常告警进行处理，查看是否消除该告警。
- 是，执行12。
- 否，执行13。
在告警列表中查看本告警是否恢复。
- 是，处理完毕。
- 否，执行13。

查看NameNode是否负荷过高。

在FusionInsight Manager首页，单击“运维 > 告警 > 告警”，查看是否存在“ALM-14007 HDFS NameNode内存使用率超过阈值”的告警。
- 是，执行14。
- 否，执行16。
参考“ALM-14007 HDFS NameNode内存使用率超过阈值”的处理步骤，对该异常告警进行处理，查看是否消除告警。
- 是，执行15。
- 否，执行16。
在告警列表中查看本告警是否恢复。
- 是，处理完毕。
- 否，执行16。