ALM-14003 丢失的HDFS块数量超过阈值

系统每30秒周期性检测丢失的块数量，并把丢失的块数量和阈值相比较。丢失的块数量指标默认提供一个阈值范围。当检测到丢失的HDFS块数量超出阈值范围时产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。

平滑次数为1，丢失的HDFS块数量小于或等于阈值时，告警恢复；平滑次数大于1，丢失的HDFS块数量小于或等于阈值时，告警恢复。

告警ID	告警级别	告警类型	业务类型	是否可自动清除
14003	紧急（默认阈值为1000）重要（默认阈值为0）	业务质量告警	HDFS	是

告警ID

告警级别

告警类型

业务类型

是否可自动清除

14003

紧急（默认阈值为1000）

重要（默认阈值为0）

业务质量告警

HDFS

是

HDFS存储数据丢失，HDFS可能会进入安全模式，无法提供写服务。丢失的块数据无法恢复。

检查DataNode实例。

删除被破坏的文件。

在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > HDFS > NameNode(主)”，在HDFS的WebUI页面，查看列出的丢失块信息。
- 如果有丢块，WebUI上会有一行红字显示。
- admin用户默认不具备其他组件的管理权限，如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时，可手动创建具备对应组件管理权限的用户进行登录。
用户确认丢失块所在的文件是否有用。

MapReduce任务运行过程中在“/mr-history”、“/tmp/hadoop-yarn”、“/tmp/logs”这三个目录中生成的文件不属于有用文件。
- 是，执行7。
- 否，执行8。
用户确认丢失块所在的文件是否已备份。
- 是，执行8。
- 否，执行11。
以root用户登录HDFS客户端，用户密码为安装前用户自定义，请咨询MRS集群管理员。执行如下命令：
- 安全模式：
  cd 客户端安装目录
  
  source bigdata_env
  
  kinit hdfs
- 普通模式：
  su - omm
  
  cd 客户端安装目录
  
  source bigdata_env
在节点客户端执行hdfs fsck / -delete，删除丢失文件。如果丢失块所在的文件为有用文件，需要再次写入文件，恢复数据。

删除文件为高危操作，在执行操作前请务必确认对应文件是否不再需要。
选择“运维 > 告警 > 告警”，查看该告警是否恢复。
- 是，处理完毕。
- 否，执行11。