ALM-12037 NTP服务器异常
告警解释
系统每60秒周期性检测NTP服务器的状态,当连续10次监控到NTP服务器异常时产生该告警。
当NTP服务器异常消除时,该告警恢复。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
12037 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
异常NTP服务器的IP地址。 |
对系统的影响
- 主OMS节点配置的NTP服务器异常,可能会导致主OMS节点与外部服务器不能同步时间,集群时间可能会产生误差。
- 时差超过5分钟以上时会导致集群外客户端到集群内认证异常,可能会导致作业运行失败。
可能原因
- NTP服务器网络异常。
- 与NTP服务器认证失败。
- 不能从NTP服务器获取时间。
- 从NTP服务器获取的时间持续未更新。
处理步骤
检查NTP服务器网络。
- 打开FusionInsight Manager页面,选择“运维 > 告警> 告警”,单击此告警所在行的。
- 查看告警附加信息,是否提示不能ping通NTP服务器IP。
- 联系网络管理员检查网络配置,确保NTP服务器与主OMS节点网络正常,然后检查告警是否恢复。
- 是,处理完毕。
- 否,执行4。
检查与NTP服务器认证是否失败。
- 以root用户登录主OMS节点,用户密码为安装前用户自定义,请咨询系统管理员。管理节点的主备状态及对应IP地址可在FusionInsight Manager主机管理界面查看。
- 执行以下命令查看主备节点的资源状态。
su - omm
sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh
如果回显中“ResName”列同时出现“chrony”和“ntp”字样,则表示正在切换NTP服务模式,等待十分钟再次执行5,如果回显中“ResName”列依旧同时出现“chrony”和“ntp”字样,请联系运维人员。
- 执行查看状态命令chronyc sources检查集群与NTP服务器认证是否失败。
对应chrony服务“Reach”项显示“0”表示连接或认证失败。
- 执行查看状态命令ntpq -np检查集群与NTP服务器认证是否失败。
对应ntp服务“refid”项显示“.AUTH.”表示认证失败。
检查是否能从NTP服务器获取时间。
- 继续查看告警附加信息,是否提示不能从NTP服务器获取时间。
- 联系NTP服务器的服务商,解决NTP服务器异常。确保NTP服务器正常后检查告警是否恢复。
- 是,处理完毕。
- 否,执行10。
检查从NTP服务器获取的时间是否持续未更新。
- 继续查看告警附加信息,是否提示从NTP服务器获取时间持续未更新。
- 联系NTP服务器的服务商,解决NTP服务器异常。确保NTP服务器正常后检查告警是否恢复。
- 是,处理完毕。
- 否,执行12。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。