更新时间:2024-11-12 GMT+08:00
ALM-45446 ClickHouse的mutation任务长时间未执行完成
本章节仅适用于MRS 3.3.1及之后版本。
告警解释
系统每隔5分钟检测一次mutation任务,当检测到有正在执行的mutation任务且运行时间大于等于阈值slow_mutation_cost_time时,系统产生告警;当没有检测到正在运行的mutation任务或mutation任务运行时间小于阈值slow_mutation_cost_time时,告警自动消除。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
45446 |
次要 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
对系统的影响
- 占用服务器资源,ClickHouse服务的性能下降。
- 数据不一致。
可能原因
数据量过大,导致mutation任务执行缓慢或者mutation任务执行卡住。
处理步骤
- 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。
- 登录客户端的节点,执行如下命令:
cd {客户端安装路径}
source bigdata_env
- 登录FusionInsight Manager页面,选择 “集群 > 服务 > ClickHouse > 配置 > 全部配置”,在搜索框中检索slow_mutation_cost_time参数的值,并将参数值填充到以下SQL语句中,并执行以下语句,查看是否有结果返回。
SELECT * FROM system.mutations WHERE is_done = 0 AND create_time < now() - INTERVAL 参数值 SECOND
“参数值”请填写实际的slow_mutation_cost_time参数的值。
- 等待一段时间,再次执行3的语句,返回结果字段parts_to_do中的值是否在变小。
- 是,等待mutation任务完成即可。
- 否,执行5。
- 如果parts_to_do的值一直没有变,可以结束mutation任务,执行以下语句后,再次执行3的语句,查看当前mutation任务是否在返回结果列表中。
KILL MUTATION WHERE database = '数据库名称' AND table = '表名称' AND mutation_id = 'mutation ID'
- 等待几分钟查看告警是否消失。
- 是,操作结束。
- 否,执行7。
收集故障信息
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
父主题: MRS集群告警处理参考