更新时间:2023-03-17 GMT+08:00

ALM-18002 NodeManager心跳丢失

告警解释

系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。

用户可通过选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置”,修改yarn.nodemanager.lost.alarm.threshold的值来配置阈值(修改该参数不用重启Yarn,就可以生效)。

阈值默认为零,当丢失节点数超过该值时,触发告警,小于阈值时会自动消除告警。

告警属性

告警ID

告警级别

是否自动清除

18002

重要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

Lost Host

丢失节点的主机列表。

对系统的影响

  • 丢失的NodeManager节点无法提供Yarn服务。
  • 容器减少,集群性能下降。

可能原因

  • NodeManager没有经过退服操作,强制被删除。
  • NodeManager所有实例被停止或者进程故障。
  • NodeManager节点所在主机故障。
  • NodeManager和ResourceManager之间的网络断连或者繁忙。

处理步骤

检查NodeManager状态。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中找到当前告警,单击获取告警详细信息,在“附加信息”中获取丢失状态的节点。
  2. 确认处于丢失状态的节点是否是人为未经过退服操作,直接主动删除的主机。

    • 是,执行3
    • 否,执行5

  3. 选择“集群 > 待操作集群的名称 > 服务 > Yarn”,进入“配置”页面,选择“全部配置”,搜索“yarn.nodemanager.lost.alarm.threshold”,修改值为未退服主动删除的主机个数。设置成功后检查告警是否清除。

    • 是,处理完毕。
    • 否,执行4

  4. 手动清除此告警,后续删除主机前务必进行退服操作。
  5. 在FusionInsight Manager界面,选择“集群 > 主机”,查看1中获取的节点是否健康。

    • 是,执行7
    • 否,执行6

  6. 参考“ALM-12006 节点故障”的操作步骤进行处理,节点恢复正常后,查看本告警是否恢复。

    • 是,处理完毕。
    • 否,执行7

检查进程状态。

  1. 在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”,查看是否存在状态为非“良好”的NodeManager。

    • 是,执行10
    • 否,执行8

  2. 确认此NodeManager实例是否被删除。

    • 是,执行9
    • 否,执行11

  3. 重启ResourceManager的主备实例,然后检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行13

检查实例状态。

  1. 选择处于非“良好”状态的NodeManager实例并重启该实例。检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行11

检查网络状态。

  1. 登录管理节点,ping丢失的NodeManager节点的IP地址,检查网络是否断连或繁忙。

    • 是,执行12
    • 否,执行13

  2. 修复网络故障,然后查看该告警是否恢复。

    • 是,处理完毕。
    • 否,执行13

收集故障信息。

  1. 在主集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“Yarn”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。