更新时间:2024-11-29 GMT+08:00
ALM-45428 ClickHouse磁盘IO异常
告警解释
告警模块按60秒周期检测ClickHouse在读写过程中有EIO或者EROFS错误,系统产生此告警。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
45428 |
重要(默认级别) |
业务质量告警 |
ClickHouse |
否 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称 |
服务名 |
产生告警的服务名称 |
|
角色名 |
产生告警的角色名称 |
|
主机名 |
产生告警的主机名 |
对系统的影响
- ClickHouse读写数据异常,本地表的INSERT、SELECT和CREATE操作概率异常,分布式表基本不受影响。
- 影响业务,会导致IO失败。
可能原因
磁盘老化或者磁盘坏道。
处理步骤
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45428 ClickHouse磁盘IO异常告警”,查看“定位信息”中的角色名以及确认主机名所在的IP地址。
- 使用PuTTY工具,以root用户登录故障所在节点。
- 执行命令df -h查看挂载目录,找到故障告警目录挂载的磁盘。
- 执行命令smartctl -a /dev/sd故障磁盘,进行磁盘检测,其中“故障磁盘”为3查询到的磁盘。
- 若检测结果如下图所示,其中“SMART Health Status: OK”,表示当前磁盘是健康的,执行6。
- 若检测结果如下图所示,其中“Elements in grown defect list”后面的数字非零,则说明磁盘可能存在坏道,或“SMART Health Status:FAILURE”,则说明磁盘处于亚健康状态,。
- 若检测结果如下图所示,其中“SMART Health Status: OK”,表示当前磁盘是健康的,执行6。
- 确认处理完成后,可在FusionInsight Manager页面,手动清除该告警,查看系统在定时检查时是否会再次产生此告警。
- 是,执行6。
- 否,处理完毕。
收集故障信息
告警清除
确认告警已无影响,可手工清除告警。
参考信息
不涉及。
父主题: 告警参考