更新时间:2024-11-29 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
ALM-18002 NodeManager心跳丢失
告警解释
系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。
用户可通过选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置”,修改yarn.nodemanager.lost.alarm.threshold的值来配置阈值(修改该参数不用重启Yarn,就可以生效)。
阈值默认为零,当丢失节点数超过该值时,触发告警,小于阈值时会自动消除告警。
告警属性
| 
        告警ID  | 
      
        告警级别  | 
      
        告警类型  | 
      
        业务类型  | 
      
        是否可自动清除  | 
     
|---|---|---|---|---|
| 
        18002  | 
      
        重要  | 
      
        处理错误告警  | 
      
        Yarn  | 
      
        是  | 
     
告警参数
| 
        类别  | 
      
        参数名称  | 
      
        参数含义  | 
     
|---|---|---|
| 
        定位信息  | 
      
        来源  | 
      
        产生告警的集群名称。  | 
     
| 
        服务名  | 
      
        产生告警的服务名称。  | 
     |
| 
        角色名  | 
      
        产生告警的角色名称。  | 
     |
| 
        主机名  | 
      
        产生告警的主机名。  | 
     |
| 
        附加信息  | 
      
        丢失节点  | 
      
        丢失节点的主机列表。  | 
     
对系统的影响
- 丢失的NodeManager节点无法提供Yarn服务。
 - 容器减少,集群性能下降。
 
可能原因
- NodeManager没有经过退服操作,强制被删除。
 - NodeManager所有实例被停止或者进程故障。
 - NodeManager节点所在主机故障。
 - NodeManager和ResourceManager之间的网络断连或者繁忙。
 
处理步骤
检查NodeManager状态。
- 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中找到当前告警,单击
获取告警详细信息,在“附加信息”中获取丢失状态的节点。 - 确认处于丢失状态的节点是否是人为未经过退服操作,直接主动删除的主机。
 - 选择“集群 > 待操作集群的名称 > 服务 > Yarn”,进入“配置”页面,选择“全部配置”,搜索“yarn.nodemanager.lost.alarm.threshold”,修改值为未退服主动删除的主机个数。设置成功后检查告警是否清除。
    
    
- 是,处理完毕。
 - 否,执行4。
 
 - 手动清除此告警,后续删除主机前务必进行退服操作。
 - 在FusionInsight Manager界面,选择“主机”,查看1中获取的节点是否健康。
 - 参考“ALM-12006 NodeAgent进程异常”的操作步骤进行处理,节点恢复正常后,查看本告警是否恢复。
    
    
- 是,处理完毕。
 - 否,执行7。
 
 
检查进程状态。
- 在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”,查看是否存在状态为非“良好”的NodeManager。
 - 确认此NodeManager实例是否被删除。
 - 重启ResourceManager的主备实例,然后检查该告警是否恢复。
    
    
- 是,处理完毕。
 - 否,执行13。
 
 
检查实例状态。
- 选择处于非“良好”状态的NodeManager实例并重启该实例。检查该告警是否恢复。
    
    
- 是,处理完毕。
 - 否,执行11。
 
 
检查网络状态。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
   父主题: 告警参考
  
 
    
      