HDFS的DataNode一直显示退服中

问题描述

HDFS的DataNode一直显示退服中。

问题现象

HDFS的某个DataNode退服（或者对Core节点进行缩容）任务失败，但是DataNode在任务失败后一直处于退服中的状态。

原因分析

在对HDFS的某个DataNode进行退服（或者对core节点进行缩容）过程中，因为Master节点重启或者nodeagent进程意外退出等情况出现，使得退服（或缩容）任务失败，并且没有进行黑名单清理。此时DataNode节点会一直处于退服中的状态，需要人工介入进行黑名单清理。

处理步骤

进入服务实例界面。

MRS Manager界面操作：

登录MRS Manager，在MRS Manager页面，选择“服务管理 > HDFS > 实例”。

FusionInsight Manager界面操作：

对于MRS 3.x及后续版本集群：也可登录FusionInsight Manager。选择“集群 > 服务 > HDFS > 实例”。

也可登录MRS控制台，选择“组件管理 > HDFS > 实例”。
查看HDFS服务实例状态，找到一直处于退服中的DataNode，复制这个DataNode的IP地址。
登录Master1节点的后台，执行cd ${BIGDATA_HOME}/MRS_*/1_*_NameNode/etc/命令进入黑名单目录。
执行sed -i "/^IP$/d" excludeHosts命令清理黑名单中的故障DataNode信息，该命令中IP替换为2中查询到的故障DataNode的IP地址，其中不能有空格。
如果有两个Master节点，请在Master2节点上同样执行3和4。
在Master1节点执行如下命令初始化环境变量。

source 客户端安装目录/bigdata_env
如果当前集群已启用Kerberos认证，执行以下命令认证当前用户。如果当前集群未启用Kerberos认证，则无需执行此命令。

kinit 具有HDFS操作权限的业务用户
在Master1节点执行如下命令刷新HDFS的黑名单。

hdfs dfsadmin -refreshNodes
执行hdfs dfsadmin -report命令来查看各个DataNode的状态，确认中查到的IP对应的DataNode已经恢复为“Normal”状态。

图1 DataNode的状态
进入服务实例界面。

MRS Manager界面操作：

登录MRS Manager，在MRS Manager页面，选择“服务管理 > HDFS > 实例”。

FusionInsight Manager界面操作：

对于MRS 3.x及后续版本集群：可登录FusionInsight Manager。选择“集群 > 服务 > HDFS > 实例”。

登录MRS控制台，选择“组件管理 > HDFS > 实例”。
勾选一直处于退服中的DataNode实例，单击“更多 > 重启实例”。
等待重启完成，确认DataNode是否恢复正常。