更新时间:2024-11-29 GMT+08:00

缩容故障场景中如何快速恢复逻辑集群状态

问题描述

ClickHouse逻辑集群在已经缩容完成的情况下,检视“状态”是长时间显示在“缩容中”。

处理步骤

  1. 登录到FusionInsight Manager界面,选择“集群 > 服务 > ClickHouse > 逻辑集群”,在集群已经缩容完成的情况下,检视“状态”是否长时间显示在“缩容中”。

    • 是,则执行2
    • 否,则逻辑集群执行缩容已完成,操作结束。

  2. 登录到MRS集群装有ZooKeeper客户端的节点,执行如下命令:

    su - omm

    source {客户端安装目录}/bigdata_env

    kinit 组件用户(普通集群无需执行kinit命令)

    zkCli.sh -server {ZooKeeper服务实例节点业务IP}:{clientPort}

    get /clickhouse/logic_cluster

    查看其中的 <status>字段,是否为REDUCING。

    • 是,则执行3
    • 否,联系技术支持,进一步分析自定义UI日志信息进行问题确认。

    ZooKeeper上ClickHouse的元数据根目录,对不同的ClickHouse多服务场景,路径信息不同。

    登录到FusionInsight Manager界面,选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”,查询配置项“clickhouse.zookeeper.root.path”的值进行确认。

  3. 执行如下命令更新逻辑集群的<status>字段为CHECKING:

    set /clickhouse/logic_cluster <clusters><default_cluster><createTime>……</createTime><sslBalancerPort>……</sslBalancerPort><balancerPort>……</balancerPort><httpsBalancerPort>……</httpsBalancerPort><httpBalancerPort>……</httpBalancerPort><replicaNum>……</replicaNum><status>CHECKING</status><node>……</node><node>……</node></default_cluster></clusters>

    对ZooKeeper上ZNode节点信息的修改,需要将所有全部内容转换成一行内容进行设置,将其中的<status>字段更新为CHECKING。