缩容故障场景中如何快速恢复逻辑集群状态
问题描述
ClickHouse逻辑集群在已经缩容完成的情况下,检视“状态”是长时间显示在“缩容中”。
处理步骤
- 登录到FusionInsight Manager界面,选择“集群 > 服务 > ClickHouse > 逻辑集群”,在集群已经缩容完成的情况下,检视“状态”是否长时间显示在“缩容中”。
- 是,则执行2。
- 否,则逻辑集群执行缩容已完成,操作结束。
- 登录到MRS集群装有ZooKeeper客户端的节点,执行如下命令:
su - omm
source {客户端安装目录}/bigdata_env
kinit 组件用户(普通集群无需执行kinit命令)
zkCli.sh -server {ZooKeeper服务实例节点业务IP}:{clientPort}
get /clickhouse/logic_cluster
查看其中的 <status>字段,是否为REDUCING。
- 是,则执行3。
- 否,联系技术支持,进一步分析自定义UI日志信息进行问题确认。
ZooKeeper上ClickHouse的元数据根目录,对不同的ClickHouse多服务场景,路径信息不同。
登录到FusionInsight Manager界面,选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”,查询配置项“clickhouse.zookeeper.root.path”的值进行确认。
- 执行如下命令更新逻辑集群的<status>字段为CHECKING:
set /clickhouse/logic_cluster <clusters><default_cluster><createTime>……</createTime><sslBalancerPort>……</sslBalancerPort><balancerPort>……</balancerPort><httpsBalancerPort>……</httpsBalancerPort><httpBalancerPort>……</httpBalancerPort><replicaNum>……</replicaNum><status>CHECKING</status><node>……</node><node>……</node></default_cluster></clusters>
对ZooKeeper上ZNode节点信息的修改,需要将所有全部内容转换成一行内容进行设置,将其中的<status>字段更新为CHECKING。