更新时间:2024-02-01 GMT+08:00

修改集群NTP服务器

操作场景

安装FusionInsight Manager管理系统后,如果未配置NTP服务器或已配置的NTP不再使用,管理员可以为集群重新指定或者更换新的NTP服务器,使集群从新的NTP时钟源同步时间。

对系统的影响

  • 更换NTP服务器是高危操作,更换后集群时间可能将会变化。
  • 更换NTP服务器前NTP服务器与集群当前时间偏差大于150s,则需先停止集群,防止数据丢失。停止集群期间服务无法访问。

前提条件

  • 已准备新的NTP服务器并获取IP地址,并设置好集群与新NTP服务器的网络。请确保服务器的NTP服务状态正常,否则将导致本章节操作失败。

操作步骤

  1. 登录FusionInsight Manager,查看是否存在未清除的告警?

    • 是,请修复告警。告警处理完毕后,执行2
    • 否,执行2

  2. omm用户分别登录主备管理节点。
  3. 在主管理节点执行以下命令查看管理平面网关。

    cat ${BIGDATA_HOME}/om-server/OMS/workspace/conf/oms-config.ini | grep om_gateway

  4. 在主备管理节点分别执行ping 管理平面网关,检查节点是否与管理平面网关连通?

    • 是,执行5
    • 否,请联系网络管理员修复网络故障,处理完毕后,执行5

  5. 在主管理节点执行以下命令,获取当前环境NTP服务器域名。

    本章节后续步骤中将以“ntp.myhuaweicloud.com”为例

    cat /opt/Bigdata_func/cloudinit/cloudinit_params | grep ntpserver

  6. 在主管理节点执行以下命令,检查集群时间与新的NTP服务器时间偏差。单位为秒。

    例如,检查与NTP服务器“ntp.myhuaweicloud.com”的时间差,执行ntpdate -d ntp.myhuaweicloud.com命令,界面显示:

     6 Dec 15:16:10 ntpdate[2861453]: step time server 10.79.3.251 offset +2.118107 sec
    其中+2.118107 sec表示时间偏差。正数表示NTP服务器时间比集群当前时间快,负数表示NTP服务器时间比集群当前时间慢。
    • ntp的版本号可以使用ntpq -v或者ntpq --version命令查询,具体显示信息以实际环境为准。

      • ntpq -v界面显示:
        10.1.1.112: ~# ntpq -v
        ntpq - standard NTP query program - Ver. 4.2.4p8
      • ntpq --version界面显示:
        10.1.1.112: ~# ntpq --version
        ntpq 4.2.8p10@1.3728-o Mon Jun  6 08:01:59 UTC 2016 (1)

  7. 检查时间偏差的绝对值是否超过“150”。

    • 是,执行8
    • 否,时间偏差的绝对值不超过“150”,以omm用户执行10

  8. 确认是否可以停止集群。

    • 是,停止上层业务并停止集群,然后执行9
    • 否,任务结束。

  9. 确认NTP服务器时间是否比集群当前时间慢?

    • 是,NTP服务器时间慢,停止集群界面显示“操作成功”后需等待,间隔大约为6得到的时间偏差,再以omm用户执行11
    • 否,NTP服务器时间快,停止集群界面显示“操作成功”后直接以omm用户执行11

  10. 在主管理节点执行以下命令,更换NTP服务器,任务结束。

    sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com

    NTP服务器IP地址不可以设置为集群内节点IP地址,否则可能会导致节点与主备oms节点业务网络断连。

  11. 在主管理节点执行以下命令,从NTP服务器“ntp.myhuaweicloud.com”立即强制同步时间并更换NTP服务器,任务结束。

    sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com --force_sync_time

    • 如果停止了集群,在更换NTP服务器后需要重新启动集群。
    • 执行强制同步时间命令后,集群节点大约需要5分钟完成时间同步。