ALM-45449 ClickHouse使用zxid即将翻转
本章节仅适用于MRS 3.3.1及之后版本。
告警解释
ClickHouse依赖ZooKeeper,zxid(ZooKeeper Transaction ID)是ZooKeeper为了实现分布式一致性而引入的一种事务编号,是一个长64位的数字。高32位用来表示当前Leader的周期,低32位用来表示当前请求产生的事务在当前Leader周期内的位置。每产生一个新的事务,zxid的低32位就会自动加1。当zxid达到最大值,即zxid的低32位达到0xffffffff,就会触发集群强制选主,从而短暂影响ClickHouse使用ZooKeeper。告警每两个小时检查一次,当zxid低32位超过设定阈值,则上报告警。
当系统检测到zxid低32位低于设定阈值时,告警恢复。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
45449 |
重要 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
对系统的影响
当zxid自然翻转时,会在不确定时刻触发ZooKeeper强制选主,影响ClickHouse服务。
可能原因
ZooKeeper zxid低32位超过设定阈值。
处理步骤
- 登录Manager页面,选择“集群 > 服务 > ZooKeeper”,在“概览”页面的右上角选择“更多 > 滚动重启服务”。在弹出的界面中输入当前用户的密码,单击“确定”。在“滚动重启服务”页面单击“确定”,等待ZooKeeper服务滚动重启完成。
滚动重启ZooKeeper服务请在ClickHouse业务空闲或低峰期进行操作。
- 请等待两小时后查看告警是否恢复。
- 是,操作结束。
- 否,执行3。
收集故障信息
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。