ALM-14002 DataNode磁盘空间使用率超过阈值

系统每30秒周期性检测DataNode磁盘空间使用率，并把实际磁盘使用率和阈值相比较。DataNode磁盘空间使用率指标默认提供一个阈值范围。当检测到DataNode磁盘空间使用率指标超出阈值范围时产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。

平滑次数为1，DataNode磁盘空间使用率指标的值小于或等于阈值时，告警恢复；平滑次数大于1，DataNode磁盘空间使用率指标的值小于或等于阈值的80%时，告警恢复。

告警ID	告警级别	告警类型	业务类型	是否可自动清除
14002	紧急（默认阈值为90%）重要（默认阈值为80%）	业务质量告警	HDFS	是

告警ID

告警级别

告警类型

业务类型

是否可自动清除

14002

紧急（默认阈值为90%）

重要（默认阈值为80%）

业务质量告警

HDFS

是

DataNode容量不足，会影响到HDFS的数据写入。

检查集群磁盘容量是否已满。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”页面，查看是否存在“ALM-14001 HDFS磁盘空间使用率超过阈值”告警。
- 是，执行2。
- 否，执行4。
参考“ALM-14001 HDFS磁盘空间使用率超过阈值”进行处理，查看对应告警是否清除。
- 是，执行3。
- 否，执行11。
在“运维 > 告警 > 告警”页面查看本告警是否清除。
- 是，处理完毕。
- 否，执行4。

检查DataNode节点平衡状态。

在FusionInsight Manager首页，单击“主机”，查看各个机架上的DataNode节点数目分布是否大致相等，如果差异过大，调整DataNode节点所属机架，保证各个机架上的DataNode数量大致相等。重启HDFS服务生效。
选择“集群 > 待操作集群的名称 > 服务 > HDFS”。
在“基本信息”区域，单击“NameNode(主)”，进入HDFS WebUI页面。

admin用户默认不具备其他组件的管理权限，如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时，可手动创建具备对应组件管理权限的用户进行登录。
在HDFS WebUI的“Summary”区域，查看“DataNodes usages”中“Max”的值是否比“Median”的值大10%。
- 是，执行8。
- 否，执行11。
数据倾斜，需要均衡集群中的数据。以root用户登录MRS客户端。如果集群为普通模式，执行su - omm切换到omm用户。执行cd命令进入客户端安装目录，然后执行source bigdata_env。如果集群采用安全版本，要进行安全认证。执行kinit hdfs命令，按提示输入密码。向MRS集群管理员获取密码。
执行以下命令，均衡数据分布：

hdfs balancer -threshold 10
等待几分钟，检查本告警是否恢复。
- 是，处理完毕。
- 否，执行11。