更新时间:2024-11-12 GMT+08:00

ALM-12037 NTP服务器异常

告警解释

系统每60秒周期性检测NTP服务器的状态,当连续10次监控到NTP服务器异常时产生该告警。

当NTP服务器异常消除时,该告警恢复。

告警属性

告警ID

告警级别

是否自动清除

12037

重要

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

异常NTP服务器的IP地址。

对系统的影响

  • 主OMS节点配置的NTP服务器异常,可能会导致主OMS节点与外部服务器不能同步时间,集群时间可能会产生误差。
  • 时差超过5分钟以上时会导致集群外客户端到集群内认证异常,可能会导致作业运行失败。

可能原因

  • NTP服务器网络异常。
  • 与NTP服务器认证失败。
  • 不能从NTP服务器获取时间。
  • 从NTP服务器获取的时间持续未更新。

处理步骤

检查NTP服务器网络。

  1. 打开FusionInsight Manager页面,选择“运维 > 告警> 告警”,单击此告警所在行的
  2. 查看告警附加信息,是否提示不能ping通NTP服务器IP。

    • 是,执行3
    • 否,执行4

  3. 联系网络管理员检查网络配置,确保NTP服务器与主OMS节点网络正常,然后检查告警是否恢复。

    • 是,处理完毕。
    • 否,执行4

检查与NTP服务器认证是否失败。

  1. root用户登录主OMS节点
  2. 执行以下命令查看主备节点的资源状态。

    su - omm

    sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh

    • 回显中“ResName”列出现“chrony”字样,执行6
    • 回显中“ResName”列出现“ntp”字样,执行7

    如果回显中“ResName”列同时出现“chrony”和“ntp”字样,则表示正在切换NTP服务模式,等待十分钟再次执行5,如果回显中“ResName”列依旧同时出现“chrony”和“ntp”字样,请联系运维人员。

  3. 执行查看状态命令chronyc sources检查集群与NTP服务器认证是否失败。

    对应chrony服务“Reach”项显示“0”表示连接或认证失败。

    • 是,执行12
    • 否,执行8

  4. 执行查看状态命令ntpq -np检查集群与NTP服务器认证是否失败。

    对应ntp服务“refid”项显示“.AUTH.”表示认证失败。

    • 是,执行12
    • 否,执行8

检查是否能从NTP服务器获取时间。

  1. 继续查看告警附加信息,是否提示不能从NTP服务器获取时间。

    • 是,执行9
    • 否,执行10

  2. 联系NTP服务器的服务商,解决NTP服务器异常。确保NTP服务器正常后检查告警是否恢复。

    • 是,处理完毕。
    • 否,执行10

检查从NTP服务器获取的时间是否持续未更新。

  1. 继续查看告警附加信息,是否提示从NTP服务器获取时间持续未更新。

    • 是,执行11
    • 否,执行12

  2. 联系NTP服务器的服务商,解决NTP服务器异常。确保NTP服务器正常后检查告警是否恢复。

    • 是,处理完毕。
    • 否,执行12

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维>日志>下载”。
  2. 在“服务”中勾选“NodeAgent”、“OmmServer”,单击“确定”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。