ALM-45433 ClickHouse AZ拓扑检查异常
告警解释
在已经部署了ClickHouse的集群开启跨AZ高可用功能,开启前后ClickHouse的拓扑不会变化,此时如果同一shard的副本节点都在同一个AZ内,不能满足跨AZ高可用要求,产生该告警。
当系统检测到所有shard的实例满足跨AZ高可用部署,告警自动清除。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
45433 |
紧急 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
主机名 |
产生告警的主机名。 |
对系统的影响
ClickHouse服务当前的部署不具备跨AZ高可用能力。
可能原因
开启跨AZ高可用之后,同一个shard的所有副本节点在一个AZ内。
处理步骤
修改副本节点AZ
- 以客户端安装用户,登录安装客户端的节点。执行以下命令,切换到客户端安装目录。
cd {客户端安装路径}
- 执行以下命令配置环境变量。
source bigdata_env
- 执行以下命令进行用户认证(普通模式跳过此步骤)。
kinit 组件业务用户
- 执行以下命令登录客户端工具。
zkCli.sh -server ZooKeeper角色实例所在节点业务IP: clientPort
- 执行以下命令,查看当前拓扑。
get /clickhouse/topo
如果ClickHouse安装了多服务,则执行命令get /clickhouse{-n}/topo,例如安装了ClickHouse-1,则执行命令get /clickhouse-1/topo。
[zk: 192.168.20.36:24002(CONNECTED) 0] get /clickhouse/topo <topo> <mcluster> <shard id="14" index="1"> <server id="15"> <replica>1</replica> <az>AZ1</az> <host>192-168-20-205</host> <port>21427</port> </server> <server id="16"> <replica>2</replica> <az>AZ1</az> <host>192-168-20-2205</host> <port>21427</port> </server> </shard> </mcluster> </topo>
- 对5查询的shard中server实例都在同一AZ的主机进行调整,从该shard选取一个主机部署至规划另外的AZ。
- 登录FusionInsight Manager页面,单击“主机”,勾选6的主机,选择“更多 > 重装”,重装主机。
- 重装完成后,选择“集群 > 单集群跨AZ高可用 > 设置AZ及策略”,将重装的主机的AZ信息修改为6中规划的AZ。
- 等待5分钟,查看告警是否清除。
- 是,操作结束。
- 否,执行10。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。