ALM-18002 NodeManager心跳丢失
告警解释
系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。
用户可通过选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置”,修改yarn.nodemanager.lost.alarm.threshold的值来配置阈值(修改该参数不用重启Yarn,就可以生效)。
阈值默认为零,当丢失节点数超过该值时,触发告警,小于阈值时会自动消除告警。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
18002 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
Lost Host |
丢失节点的主机列表。 |
对系统的影响
- 丢失的NodeManager节点无法提供Yarn服务。
- 容器减少,集群性能下降。
可能原因
- NodeManager没有经过退服操作,强制被删除。
- NodeManager所有实例被停止或者进程故障。
- NodeManager节点所在主机故障。
- NodeManager和ResourceManager之间的网络断连或者繁忙。
处理步骤
检查NodeManager状态。
- 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中找到当前告警,单击获取告警详细信息,在“附加信息”中获取丢失状态的节点。
- 确认处于丢失状态的节点是否是人为未经过退服操作,直接主动删除的主机。
- 选择“集群 > 待操作集群的名称 > 服务 > Yarn”,进入“配置”页面,选择“全部配置”,搜索“yarn.nodemanager.lost.alarm.threshold”,修改值为未退服主动删除的主机个数。设置成功后检查告警是否清除。
- 是,处理完毕。
- 否,执行4。
- 手动清除此告警,后续删除主机前务必进行退服操作。
- 在FusionInsight Manager界面,选择“集群 > 主机”,查看1中获取的节点是否健康。
- 参考“ALM-12006 节点故障”的操作步骤进行处理,节点恢复正常后,查看本告警是否恢复。
- 是,处理完毕。
- 否,执行7。
检查进程状态。
- 在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”,查看是否存在状态为非“良好”的NodeManager。
- 确认此NodeManager实例是否被删除。
- 重启ResourceManager的主备实例,然后检查该告警是否恢复。
- 重启主ResourceManager实例,会发生ResourceManager实例主备倒换,倒换过程中,Yarn无法提交新作业,已提交的作业不受影响。Yarn组件以及依赖Yarn的组件会出现短暂的服务不可用告警。
- 重启备ResourceManager实例,服务业务不受影响。
- 是,处理完毕。
- 否,执行13。
检查实例状态。
- 选择处于非“良好”状态的NodeManager实例并重启该实例。检查该告警是否恢复。
NodeManager重启过程中,提交到该节点的Container可能会重试到其他节点。
- 是,处理完毕。
- 否,执行11。
检查网络状态。
- 登录管理节点,ping丢失的NodeManager节点的IP地址,检查网络是否断连或繁忙。管理节点的主备状态及对应IP地址可在FusionInsight Manager主机管理界面查看。
- 修复网络故障,然后查看该告警是否恢复。
- 是,处理完毕。
- 否,执行13。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。