更新时间:2024-09-04 GMT+08:00
ALM-45428 ClickHouse磁盘IO异常
告警解释
告警模块按60秒周期检测ClickHouse在读写过程中有EIO或者EROFS错误,系统产生此告警。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
45428 |
重要(默认级别) |
否 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群名称 |
服务名 |
产生告警的服务名称 |
角色名 |
产生告警的角色名称 |
主机名 |
产生告警的主机名 |
对系统的影响
- ClickHouse读写数据异常,本地表的INSERT、SELECT和CREATE操作概率异常,分布式表基本不受影响。
- 影响业务,会导致IO失败。
可能原因
磁盘老化或者磁盘坏道。
处理步骤
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45428 ClickHouse磁盘IO异常告警”,查看“定位信息”中的角色名以及确认主机名所在的IP地址。
- 使用PuTTY工具,以root用户登录故障所在节点。
- 执行命令df -h查看挂载目录,找到故障告警目录挂载的磁盘。
- 执行命令smartctl -a /dev/sd故障磁盘,进行磁盘检测,其中“故障磁盘”为3查询到的磁盘。
- 若检测结果如下图所示,其中“SMART Health Status: OK”,表示当前磁盘是健康的,执行6。
- 若检测结果如下图所示,其中“Elements in grown defect list”后面的数字非零,则说明磁盘可能存在坏道,或“SMART Health Status:FAILURE”,则说明磁盘处于亚健康状态,联系运维人员处理。
- 若检测结果如下图所示,其中“SMART Health Status: OK”,表示当前磁盘是健康的,执行6。
- 确认处理完成后,可在FusionInsight Manager页面,手动清除该告警,查看系统在定时检查时是否会再次产生此告警。
- 是,执行6。
- 否,处理完毕。
收集故障信息
告警清除
确认告警已无影响,可手工清除告警。
参考信息
无
父主题: MRS集群告警处理参考