ALM-14028 待补齐的块数超过阈值

告警解释

系统每30秒周期性检测待补齐的块数量，并把待补齐的块数量和阈值相比较。需补齐的块数量指标默认提供一个阈值范围。当检测到丢失的块数量超出阈值范围时产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > HDFS > 文件和块 > 需要复制副本的块总数（NameNode）”修改阈值。

平滑次数为1，待补齐的块数量小于或等于阈值时，告警恢复；平滑次数大于1，待补齐的块数量小于或等于阈值的90%时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
14028	次要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
NameService名	产生告警的NameService名称。
Trigger condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

HDFS存储数据丢失，HDFS可能会进入安全模式，无法提供写服务。丢失的块数据无法恢复。

可能原因

DataNode实例异常。
数据被删除。
写入文件的副本数大于DataNode的节点数。

处理步骤

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”查看是否存在告警“ALM-14003 丢失的HDFS块数量超过阈值”。
- 是，执行步骤 2。
- 否，执行步骤 3。
按照ALM-14003 丢失的HDFS块数量超过阈值的处理方法处理，然后等待5分钟，检查告警是否清除。
- 是，结束。
- 否，执行步骤 3。

以root用户登录MRS集群客户端所在节点，用户密码为安装前用户自定义，请咨询MRS集群管理员。

集群节点登录可参考登录MRS集群节点。
1. 如果集群未开启Kerberos认证，执行命令切换到omm用户。
```
su - omm
```
2. 执行命令进入客户端安装目录并加载环境变量。
```
cd 客户端安装目录
```
```
source bigdata_env
```
3. 如果集群开启了Kerberos认证，继续进行安全认证。
```
kinit 具有HDFS操作权限的业务用户名
```
  按系统提示输入密码。
执行命令检查文件系统完整性，获取当前集群的状况。
```
hdfs fsck / >> fsck.log
```
使用命令统计当前待复制块数量M。
```
cat fsck.log | grep "Under-replicated"
```
使用命令统计“/tmp/hadoop-yarn/staging/”目录下的待复制块数量N。
```
cat fsck.log | grep "Under replicated" | grep "/tmp/hadoop-yarn/staging/" | wc -l
```
“/tmp/hadoop-yarn/staging/”目录为默认值，如果集群有修改，可以通过mapred-site.xml文件配置项“yarn.app.mapreduce.am.staging-dir”获取此路径。
比对N是否占了M的大多数（N/M＞50%）。
- 是，执行步骤 8。
- 否，执行步骤 10。
执行命令来重新配置目录的文件副本数（文件副本数选择DataNode节点数或者默认文件副本数）。
```
hdfs dfs -setrep -w 文件副本数 /tmp/hadoop-yarn/staging/
```
默认文件副本数可登录Manager页面，选择“集群 > 服务 > HDFS > 配置 > 全部配置”，搜索“dfs.replication”参数确认。
等待5分钟，检查告警是否清除。
- 是，结束。
- 否，执行步骤 10。