ALM-45432 ClickHouse用户同步进程故障
告警解释
系统每5分钟周期性检测用户角色同步进程的状态,当检测到ClickHouse服务用户角色同步进程故障或者用户角色同步失败,产生该告警。
当用户角色同步进程正常并且用户角色同步功能正常后,告警自动清除。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
45432 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
对系统的影响
部分ClickHouseServer实例不可用。ClickHouse节点故障恢复时,存量用户角色同步失败,导致使用存量用户访问此节点时可能存在认证鉴权失败的问题,正常ClickHouse功能异常。
可能原因
- ClickHouse用户角色同步进程未正常启动或异常退出。
- 由于LdapServer服务故障,用户角色同步进程同步用户角色信息失败。
处理步骤
检查ClickHouse用户角色同步进程是否正常
- 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查找“ALM-45432 ClickHouse用户同步进程故障”告警。
- 查看该告警详情中涉及的主机名和附加信息。
- 根据告警详情中涉及的主机名,以omm用户登录到异常的主机节点,执行如下命令,查看ClickHouse用户角色同步进程是否正常:
ps -ef | grep 'clickhouse-ugsync'
同步进程异常结果:
[omm@server-2110081635-0001 ~]$ ps -ef | grep 'clickhouse-ugsync' omm 20104 13146 0 15:57 pts/7 00:00:00 grep --color=auto clickhouse-ugsync
- 以omm用户登录到异常主机节点,执行如下命令查看crontab守护任务是否设置正常:
crontab -l
用户角色同步进程的crontab守护任务正常设置信息如下:
*/5 * * * * bash /xxxxx/clickhouse_ugsync_check.sh >/dev/null 2>&1
- 登录FusionInsight Manager页面,选择“集群 > 服务 > ClickHouse > 实例”,根据告警异常主机节点信息,将ClickHouseServer异常的实例重启,等待5min之后查看告警是否清除。
- 是,告警清除,操作结束。
- 否,告警未清除,执行6。
重启实例期间实例不可用,当前实例节点的ClickHouse业务会执行失败。
检查LdapServer服务是否正常
- 登录FusionInsight Manager页面,选择“集群 > 服务”,查看LdapServer服务“运行状态”是否为“良好”。
- 请根据告警资料“ALM-25000 LdapServer服务不可用”处理“LdapServer服务不可用”告警。
等待LdapServer服务“运行状态”为“良好”后,查看告警“ALM-45432 ClickHouse用户同步进程故障”是否清除。
- 是,操作结束。
- 否,执行8。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。