ALM-14002 DataNode磁盘空间使用率超过阈值

告警解释

系统每30秒周期性检测DataNode磁盘空间使用率，并把实际磁盘使用率和阈值相比较。DataNode磁盘空间使用率指标默认提供一个阈值范围。当检测到DataNode磁盘空间使用率指标超出阈值范围时产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > HDFS”修改阈值。

平滑次数为1，DataNode磁盘空间使用率指标的值小于或等于阈值时，告警恢复；平滑次数大于1，DataNode磁盘空间使用率指标的值小于或等于阈值的80%时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
14002	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Trigger condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

DataNode容量不足，会影响到HDFS的数据写入。

可能原因

集群磁盘容量已满。
DataNode节点间数据倾斜。

处理步骤

检查集群磁盘容量是否已满。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”页面，查看是否存在“ALM-14001 HDFS磁盘空间使用率超过阈值”告警。
- 是，执行步骤 2。
- 否，执行步骤 4。
参考ALM-14001 HDFS磁盘空间使用率超过阈值进行处理，查看对应告警是否清除。
- 是，执行步骤 3。
- 否，执行步骤 11。
在“运维 > 告警 > 告警”页面查看本告警是否清除。
- 是，处理完毕。
- 否，执行步骤 4。

检查DataNode节点平衡状态。

在FusionInsight Manager首页，单击“主机”，查看各个机架上的DataNode节点数目分布是否大致相等，如果差异过大，调整DataNode节点所属机架，保证各个机架上的DataNode数量大致相等。重启HDFS服务使配置生效。

服务在重启过程中将不可用，依赖该服务的上层服务也将受到影响。
选择“集群 > 服务 > HDFS”。
在“基本信息”区域，单击“NameNode(主)”，进入HDFS WebUI页面。

admin用户默认不具备其他组件的管理权限，如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时，可手动创建具备对应组件管理权限的用户进行登录，请参考创建HDFS权限角色。
在HDFS WebUI的“Summary”区域，查看“DataNodes usages”中“Max”的值是否比“Median”的值大10%。
- 是，执行步骤 8。
- 否，执行步骤 11。
数据倾斜，需要均衡集群中的数据。

以root用户登录MRS集群客户端节点。
1. 如果集群未开启Kerberos认证，执行命令切换到omm用户。
```
su - omm
```
2. 执行命令进入客户端安装目录并加载环境变量。
```
cd 客户端安装目录
```
```
source bigdata_env
```
3. 如果集群开启了Kerberos认证，继续进行安全认证。
```
kinit 具有HDFS操作权限的业务用户名
```
  按系统提示输入密码。
执行以下命令，均衡数据分布：
```
hdfs balancer -threshold 10
```
-threshold <百分比>：指定均衡阈值（默认 10%）。

当节点存储使用率与集群平均使用率相差超过该阈值时，触发数据迁移。
等待几分钟，检查本告警是否恢复。
- 是，处理完毕。
- 否，执行步骤 11。