更新时间:2024-12-06 GMT+08:00

ALM-14009 Dead DataNode数量超过阈值

告警解释

系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的DataNode数量超出阈值范围时,产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。

平滑次数为1,故障状态的DataNode数量小于或等于阈值时,告警恢复;平滑次数大于1,故障状态的DataNode数量小于或等于阈值的90%时,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

14009

重要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

NameService名

产生告警的NameService名称。

Trigger condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

故障状态的DataNode节点无法提供HDFS服务,可能导致用户无法读写文件。

可能原因

  • DataNode故障或者负荷过高。
  • NameNode和DataNode之间的网络断连或者繁忙。
  • NameNode负荷过高。
  • DataNode被删除后,没有重启NameNode。

处理步骤

查看DataNode是否故障。

  1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS”。
  2. 在“基本信息”区域,单击“NameNode(主)”,进入HDFS WebUI页面。

    admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。

  3. 在HDFS WebUI,单击“Datanodes”页签,在“In operation”区域,打开“Filter”下拉菜单,查看是否有“down”选项。

    • 是,选择“down”,记录筛选出的DataNode节点的信息,执行4
    • 否,执行8

  4. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”,在实例列表中,检查已记录的DataNode节点是否存在。

    • 所有已记录的DataNode节点都存在时,执行5
    • 所有已记录的DataNode节点都不存在时,执行6
    • 部分已记录的DataNode节点存在时,执行7

  5. 勾选对应的DataNode实例,选择“更多 > 重启实例”进行重启,重启结束后,查看本告警是否恢复。

    重启期间服务业务可能受损或中断,建议选择业务低峰期操作。

    • 是,处理完毕。
    • 否,执行8

  6. 勾选所有的NameNode实例,选择“更多 > 滚动重启实例”进行重启,重启结束后,查看本告警是否恢复。

    • 是,处理完毕。
    • 否,执行16

  7. 勾选所有的NameNode实例,选择“更多 > 滚动重启实例”进行重启。重启完成后,勾选对应的DataNode实例,选择“更多 > 重启实例”进行重启,重启结束后,查看本告警是否恢复。

    • 是,处理完毕。
    • 否,执行8

查看NameNode和DataNode之间的网络情况。

  1. root用户登录管理页面上存在且处于故障状态DataNode的业务平面IP节点,执行ping NameNode的IP地址命令以检查DataNode和NameNode之间的网络是否异常。

    在FusionInsight Manager界面,单击“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”,在实例列表中可查看处于故障状态DataNode的业务平面IP地址。

    • 是,执行9
    • 否,执行10

  2. 修复网络故障,查看该告警是否恢复。

    • 是,处理完毕。
    • 否,执行10

查看DataNode是否负荷过高。

  1. 在FusionInsight Manager首页,单击“运维 > 告警 > 告警”,查看否存在“ALM-14008 HDFS DataNode内存使用率超过阈值”的告警。

    • 是,执行11
    • 否,执行13

  2. 参考ALM-14008 DataNode堆内存使用率超过阈值的处理步骤,对该异常告警进行处理,查看是否消除该告警。

    • 是,执行12
    • 否,执行13

  3. 在告警列表中查看本告警是否恢复。

    • 是,处理完毕。
    • 否,执行13

查看NameNode是否负荷过高。

  1. 在FusionInsight Manager首页,单击“运维 > 告警 > 告警”,查看是否存在“ALM-14007 HDFS NameNode内存使用率超过阈值”的告警。

    • 是,执行14
    • 否,执行16

  2. 参考ALM-14007 NameNode堆内存使用率超过阈值的处理步骤,对该异常告警进行处理,查看是否消除告警。

    • 是,执行15
    • 否,执行16

  3. 在告警列表中查看本告警是否恢复。

    • 是,处理完毕。
    • 否,执行16

收集故障信息。

  1. 在FusionInsight Manager首页,单击“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“HDFS”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。