更新时间:2024-11-12 GMT+08:00

ALM-45449 ClickHouse使用zxid即将翻转

本章节仅适用于MRS 3.3.1及之后版本。

告警解释

ClickHouse依赖ZooKeeper,zxid(ZooKeeper Transaction ID)是ZooKeeper为了实现分布式一致性而引入的一种事务编号,是一个长64位的数字。高32位用来表示当前Leader的周期,低32位用来表示当前请求产生的事务在当前Leader周期内的位置。每产生一个新的事务,zxid的低32位就会自动加1。当zxid达到最大值,即zxid的低32位达到0xffffffff,就会触发集群强制选主,从而短暂影响ClickHouse使用ZooKeeper。告警每两个小时检查一次,当zxid低32位超过设定阈值,则上报告警。

当系统检测到zxid低32位低于设定阈值时,告警恢复。

告警属性

告警ID

告警级别

是否可自动清除

45449

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

当zxid自然翻转时,会在不确定时刻触发ZooKeeper强制选主,影响ClickHouse服务。

可能原因

ZooKeeper zxid低32位超过设定阈值。

处理步骤

  1. 登录Manager页面,选择“集群 > 服务 > ZooKeeper”,在“概览”页面的右上角选择“更多 > 滚动重启服务”。在弹出的界面中输入当前用户的密码,单击“确定”。在“滚动重启服务”页面单击“确定”,等待ZooKeeper服务滚动重启完成。

    滚动重启ZooKeeper服务请在ClickHouse业务空闲或低峰期进行操作。

  2. 请等待两小时后查看告警是否恢复。

    • 是,操作结束。
    • 否,执行3

收集故障信息

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“ClickHouse”。
  3. 在“主机”中选择异常的主机,单击“确定”。
  4. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。