更新时间:2024-01-04 GMT+08:00

ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)

告警解释

系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的DataNode数量超出阈值范围时,产生该告警。

故障状态的DataNode数量小于或等于阈值时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

14009

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

Trigger condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

故障状态的DataNode节点无法提供HDFS服务。

可能原因

  • DataNode故障或者负荷过高。
  • NameNode和DataNode之间的网络断连或者繁忙。
  • NameNode负荷过高。

处理步骤

  1. 查看DataNode是否故障。

    1. 在集群节点使用客户端,执行hdfs dfsadmin -report命令,可以查看Dead datanodes项对应的数量显示以及处于故障状态的DataNode信息。
      • 是,执行1.b
      • 否,执行2.a
    2. 在MRS集群详情页面,单击“组件管理 > HDFS > 实例”,检查对应DataNode是否处于停止状态。
      • 是,执行1.c
      • 否,执行2.a
    3. 勾选对应的DataNode实例,单击“更多 > 重启实例”进行重启,等待5分钟后,然后查看本告警是否恢复。
      • 是,处理完毕。
      • 否,执行2.a

  2. 查看NameNode和DataNode之间的网络情况。

    1. 登录处于故障状态DataNode的业务平面IP节点,执行ping NameNode的IP地址命令以检查DataNode和NameNode之间的网络是否异常。
      • 是,执行2.b
      • 否,执行3.a
    2. 修复网络故障,等待5分钟后,查看该告警是否恢复。
      • 是,处理完毕。
      • 否,执行3.a

  3. 查看DataNode是否负荷过高。

    1. 在MRS集群详情页面单击“告警管理”,查看否存在“ALM-14008 HDFS DataNode内存使用率超过阈值”的告警。
      • 是,执行3.b
      • 否,执行4.a
    2. 参考ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)的处理步骤,对该异常告警进行处理,查看是否消除该告警。
      • 是,执行3.c
      • 否,执行4.a
    3. 等待5分钟后,在告警列表中查看本告警是否恢复。
      • 是,处理完毕。
      • 否,执行4.a

  4. 查看NameNode是否负荷过高。

    1. 在MRS集群详情页面单击“告警管理”,查看是否存在“ALM-14007 HDFS NameNode内存使用率超过阈值”的告警。
      • 是,执行4.b
      • 否,执行5
    2. 参考ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)的处理步骤,对该异常告警进行处理,查看是否消除告警。
      • 是,执行4.c
      • 否,执行5
    3. 等待5分钟后,在告警列表中查看本告警是否恢复。
      • 是,处理完毕。
      • 否,执行5

  5. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。