更新时间:2024-09-04 GMT+08:00

ALM-45428 ClickHouse磁盘IO异常

告警解释

告警模块按60秒周期检测ClickHouse在读写过程中有EIO或者EROFS错误,系统产生此告警。

告警属性

告警ID

告警级别

是否自动清除

45428

重要(默认级别)

告警参数

参数名称

参数含义

来源

产生告警的集群名称

服务名

产生告警的服务名称

角色名

产生告警的角色名称

主机名

产生告警的主机名

对系统的影响

  • ClickHouse读写数据异常,本地表的INSERT、SELECT和CREATE操作概率异常,分布式表基本不受影响。
  • 影响业务,会导致IO失败。

可能原因

磁盘老化或者磁盘坏道。

处理步骤

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45428 ClickHouse磁盘IO异常告警”,查看“定位信息”中的角色名以及确认主机名所在的IP地址。
  2. 使用PuTTY工具,以root用户登录故障所在节点。
  3. 执行命令df -h查看挂载目录,找到故障告警目录挂载的磁盘。
  4. 执行命令smartctl -a /dev/sd故障磁盘,进行磁盘检测,其中“故障磁盘”为3查询到的磁盘。

    • 若检测结果如下图所示,其中“SMART Health Status: OK”,表示当前磁盘是健康的,执行6

    • 若检测结果如下图所示,其中“Elements in grown defect list”后面的数字非零,则说明磁盘可能存在坏道,或“SMART Health Status:FAILURE”,则说明磁盘处于亚健康状态,联系运维人员处理。

  5. 确认处理完成后,可在FusionInsight Manager页面,手动清除该告警,查看系统在定时检查时是否会再次产生此告警。

    • 是,执行6
    • 否,处理完毕。

收集故障信息

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“ClickHouse”。
  3. 在“主机”中选择对应的主机。
  4. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

确认告警已无影响,可手工清除告警。

参考信息