更新时间:2024-11-22 GMT+08:00
分享

ALM-14037 存在集群外的DataNode

告警解释

NameNode每8个小时周期性检查集群中是否存在脱离管控的DataNode。如果存在则触发该告警。如果无脱离管控的DataNode则告警清除。

该告警仅适用于MRS 3.3.1及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

14037

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

NameService名

产生告警的NameService。

附加信息

触发条件

系统当前指标取值满足自定义的告警设置条件、集群外的DataNode节点IP及端口。

对系统的影响

当有脱离集群管控的DataNode时,可能造成数据丢失。

可能原因

强制删除主机后,该主机又上电恢复,进程被重新启动。

处理步骤

  1. 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看该告警的详细信息,在附加信息中查看发生该告警的主机IP。
  2. 停止上报告警的主机上的DataNode进程。

    如果附加信息中发生该告警的主机IP有多个,每次只能停止一个DataNode进程,且“待复制副本的块数”变为“0”后才能停止下一个DataNode进程。

    1. root用户登录发生该告警的主机IP地址,修改安装目录“${BIGDATA_HOME}/FusionInsight_HD_*/install”下的hadoop目录权限。

      chmod 000 ${BIGDATA_HOME}/FusionInsight_HD_8.1.0.1/install/FusionInsight-Hadoop-3.3.1

    2. 执行以下命令获取DataNode进程PID并停止主机上的DataNode进程。

      ps -ef | grep Dproc_datanode

      kill -15 获取到的进程PID

    3. 选择“集群 > 服务 > HDFS”,在“概览”的基本信息区域(或HDFS“概览”中“NameService概述”区域)等待“待复制副本的块数”变为“0”。

  3. 等待8小时后检查该告警是否恢复,“待复制副本的块数”是否为“0”。

    • 是,处理完毕。
    • 否,执行4

收集故障信息

  1. 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“HDFS”。
  3. 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

相关文档