更新时间:2024-08-13 GMT+08:00
分享

ALM-45433 ClickHouse AZ拓扑检查异常

告警解释

在已经部署了ClickHouse的集群开启跨AZ高可用功能,开启前后ClickHouse的拓扑不会变化,此时如果同一shard的副本节点都在同一个AZ内,不能满足跨AZ高可用要求,产生该告警。

当系统检测到所有shard的实例满足跨AZ高可用部署,告警自动清除。

告警属性

告警ID

告警级别

是否自动清除

45433

紧急

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

主机名

产生告警的主机名。

对系统的影响

ClickHouse服务当前的部署不具备跨AZ高可用能力。

可能原因

开启跨AZ高可用之后,同一个shard的所有副本节点在一个AZ内。

处理步骤

修改副本节点AZ

  1. 以客户端安装用户,登录安装客户端的节点。执行以下命令,切换到客户端安装目录。

    cd {客户端安装路径}

  2. 执行以下命令配置环境变量。

    source bigdata_env

  3. 执行以下命令进行用户认证(普通模式跳过此步骤)。

    kinit 组件业务用户

  4. 执行以下命令登录客户端工具。

    zkCli.sh -server ZooKeeper角色实例所在节点业务IP: clientPort

  5. 执行以下命令,查看当前拓扑。

    get /clickhouse/topo

    如果ClickHouse安装了多服务,则执行命令get /clickhouse{-n}/topo,例如安装了ClickHouse-1,则执行命令get /clickhouse-1/topo

    [zk: 192.168.20.36:24002(CONNECTED) 0] get /clickhouse/topo 
    
    <topo>
      <mcluster>
        <shard id="14" index="1">
          <server id="15">
            <replica>1</replica>
            <az>AZ1</az>
            <host>192-168-20-205</host>
            <port>21427</port>
          </server>
          <server id="16">
            <replica>2</replica>
            <az>AZ1</az>
            <host>192-168-20-2205</host>
            <port>21427</port>
          </server>
        </shard>
      </mcluster>
    </topo>

  6. 5查询的shard中server实例都在同一AZ的主机进行调整,从该shard选取一个主机部署至规划另外的AZ。
  7. 登录FusionInsight Manager页面,单击“主机”,勾选6的主机,选择“更多 > 重装”,重装主机。
  8. 重装完成后,选择“集群 > 单集群跨AZ高可用 > 设置AZ及策略”,将重装的主机的AZ信息修改为6中规划的AZ。
  9. 等待5分钟,查看告警是否清除。

    • 是,操作结束。
    • 否,执行10

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“ClickHouse”。
  3. 在“主机”中选择异常的主机,单击“确定”。
  4. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

相关文档