ALM-14039 集群内存在慢DataNode

系统每60秒周期性检测HDFS DataNode实例每秒出现的慢操作次数，并把次数与阈值相比较。当HDFS DataNode实例持续3分钟出现每秒的慢操作次数超出阈值，产生该告警。

当HDFS DataNode实例每秒出现的慢操作次数小于或等于阈值时，告警恢复。

本章节仅适用于MRS 3.5.0-LTS及之后版本。

告警ID	告警级别	是否可自动清除
14039	重要	是

HDFS出现慢DataNode，会影响HDFS的数据读写性能。

检查是否DataNode实例磁盘IO速率低。

登录FusionInsight Manager界面，选择“运维 > 告警 > 告警”，查看当前告警详细信息，记录定位信息中上报告警的DataNode实例主机名。
选择“集群 > 服务 > HDFS > 实例”，根据步骤 1中获取的主机名称，单击对应DataNode角色。
选择“图表 > 性能”，查看监控图表“每秒出现慢Flush或Sync的次数”、“每秒出现慢SyncWriterOsCache的次数”、“每秒出现慢WriteDataToDisk的次数”是否存在数值高的监控指标。
- 是，执行步骤 4。
- 否，执行步骤 8。
在FusionInsight Manager界面，选择“运维 > 告警 > 告警”查看是否存在“ALM-12033 慢盘故障”告警。
- 是，查看并记录告警详细信息中的磁盘信息，执行步骤 6。
- 否，执行步骤 5。
获取发生慢操作的磁盘信息。
1. 使用omm用户登录步骤 1中获取的DataNode节点IP地址，使用如下命令查看运行日志。
  cd /var/log/Bigdata/hdfs/dn/
  
  vim hadoop-omm-datanode-主机名.log
2. 在日志中搜索关键字“slow”，确认发生慢操作的磁盘信息。
根据获取到的磁盘信息，参考“ALM-12033 慢盘故障”告警处理步骤进行处理。
等待5分钟，检查该告警是否恢复。
- 是，操作结束。
- 否，执行步骤 8。

检查是否HDFS各DataNode实例之间网络传输速率低。

在FusionInsight Manager界面选择“集群 > 服务 > HDFS”，继续选择“图表 > 性能”，查看监控图表“每秒出现慢WritePacketToDownStream的次数”、“每秒出现慢AckToUpstream的次数”是否存在数值高的监控指标。
- 是，执行步骤 9。
- 否，执行步骤 13。
使用omm用户登录步骤 1中获取的DataNode主机IP地址，使用如下命令查看运行日志。

cd /var/log/Bigdata/hdfs/dn/

vim hadoop-omm-datanode-主机名.log
在日志中搜索关键字“slow”，确认发生慢操作的上下游节点信息。
检查当前节点与步骤 10中获取的节点之间的网络通信是否通畅。
- 是，执行步骤 13。
- 否，联系网络管理员修复网络。
等待5分钟，检查该告警是否恢复。
- 是，操作结束。
- 否，执行步骤 13。