ALM-14037 存在集群外的DataNode
告警解释
NameNode每8个小时周期性检查集群中是否存在脱离管控的DataNode。如果存在则触发该告警。如果无脱离管控的DataNode则告警清除。
该告警仅适用于MRS 3.3.1及之后版本。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
14037 |
重要 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
NameService名 |
产生告警的NameService。 |
|
附加信息 |
触发条件 |
系统当前指标取值满足自定义的告警设置条件、集群外的DataNode节点IP及端口。 |
对系统的影响
当有脱离集群管控的DataNode时,可能造成数据丢失。
可能原因
强制删除主机后,该主机又上电恢复,进程被重新启动。
处理步骤
- 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看该告警的详细信息,在附加信息中查看发生该告警的主机IP。
- 停止上报告警的主机上的DataNode进程。
如果附加信息中发生该告警的主机IP有多个,每次只能停止一个DataNode进程,且“待复制副本的块数”变为“0”后才能停止下一个DataNode进程。
- 以root用户登录发生该告警的主机IP地址,修改安装目录“${BIGDATA_HOME}/FusionInsight_HD_*/install”下的hadoop目录权限。
chmod 000 ${BIGDATA_HOME}/FusionInsight_HD_8.1.0.1/install/FusionInsight-Hadoop-3.3.1
- 执行以下命令获取DataNode进程PID并停止主机上的DataNode进程。
kill -15 获取到的进程PID
- 选择“集群 > 服务 > HDFS”,在“概览”的基本信息区域(或HDFS“概览”中“NameService概述”区域)等待“待复制副本的块数”变为“0”。
- 以root用户登录发生该告警的主机IP地址,修改安装目录“${BIGDATA_HOME}/FusionInsight_HD_*/install”下的hadoop目录权限。
- 等待8小时后检查该告警是否恢复,“待复制副本的块数”是否为“0”。
- 是,处理完毕。
- 否,执行4。
收集故障信息