更新时间:2025-08-09 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
ALM-12037 NTP服务器异常
告警解释
系统每60秒周期性检测NTP服务器的状态,当连续10次监控到NTP服务器异常时产生该告警。
当NTP服务器异常消除时,该告警恢复。
告警属性
| 
         告警ID  | 
       
         告警级别  | 
       
         是否自动清除  | 
      
|---|---|---|
| 
         12037  | 
       
         重要  | 
       
         是  | 
      
告警参数
| 
         参数名称  | 
       
         参数含义  | 
      
|---|---|
| 
         来源  | 
       
         产生告警的集群或系统名称。  | 
      
| 
         服务名  | 
       
         产生告警的服务名称。  | 
      
| 
         角色名  | 
       
         产生告警的角色名称。  | 
      
| 
         主机名  | 
       
         异常NTP服务器的IP地址。  | 
      
对系统的影响
- 主OMS节点配置的NTP服务器异常,可能会导致主OMS节点与外部服务器不能同步时间,集群时间可能会产生误差。
 - 时差超过5分钟以上时会导致集群外客户端到集群内认证异常,可能会导致作业运行失败。
 
可能原因
- NTP服务器网络异常。
 - 与NTP服务器认证失败。
 - 不能从NTP服务器获取时间。
 - 从NTP服务器获取的时间持续未更新。
 
处理步骤
检查NTP服务器网络。
- 打开FusionInsight Manager页面,选择“运维 > 告警> 告警”,单击此告警所在行的
。 - 查看告警附加信息,是否提示不能ping通NTP服务器IP。
 - 联系网络管理员检查网络配置,确保NTP服务器与主OMS节点网络正常,然后检查告警是否恢复。
     
     
- 是,处理完毕。
 - 否,执行步骤 4。
 
 
检查与NTP服务器认证是否失败。
- 以root用户登录主OMS节点。
 - 执行以下命令查看主备节点的资源状态。
     
     
su - omm
sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh
 
      如果回显中“ResName”列同时出现“chrony”和“ntp”字样,则表示正在切换NTP服务模式,等待十分钟再次执行步骤 5,如果回显中“ResName”列依旧同时出现“chrony”和“ntp”字样,请联系运维人员。
 - 执行查看状态命令chronyc sources检查集群与NTP服务器认证是否失败。
     
     
对应chrony服务“Reach”项显示“0”表示连接或认证失败。
 - 执行查看状态命令ntpq -np检查集群与NTP服务器认证是否失败。
     
     
对应ntp服务“refid”项显示“.AUTH.”表示认证失败。
 
检查是否能从NTP服务器获取时间。
- 继续查看告警附加信息,是否提示不能从NTP服务器获取时间。
 - 联系NTP服务器的服务商,解决NTP服务器异常。确保NTP服务器正常后检查告警是否恢复。
     
     
- 是,处理完毕。
 - 否,执行步骤 10。
 
 
检查从NTP服务器获取的时间是否持续未更新。
- 继续查看告警附加信息,是否提示从NTP服务器获取时间持续未更新。
 - 联系NTP服务器的服务商,解决NTP服务器异常。确保NTP服务器正常后检查告警是否恢复。
     
     
- 是,处理完毕。
 - 否,执行步骤 12。
 
 
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。
    
      