更新时间:2024-08-13 GMT+08:00
分享

ALM-38008 Kafka数据目录状态异常

告警解释

系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。

平滑次数为1,当数据目录状态恢复正常后,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

38008

重要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名称。

目录名

产生告警的目录名称。

Trigger Condition

Kafka数据目录状态异常。

对系统的影响

Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。

可能原因

  • 数据目录权限被篡改。
  • 数据目录所在磁盘故障。

处理步骤

检查故障的数据目录权限。

  1. 根据告警提示的主机信息,登录到该节点上。
  2. 查看告警详细信息中所提示的数据目录及其子目录,属组是否为omm:wheel。

    • 是,记录当前节点主机名,并执行4
    • 否,执行3

  3. 恢复数据目录及其子目录的属组为omm:wheel。

检查数据目录所在磁盘是否故障。

  1. 使用omm用户,在所提示的数据目录的上一级目录下,进行创建、删除文件测试,看能够正常读写磁盘。

    • 是,执行6
    • 否,执行5

  2. 更换或者修复数据目录所在磁盘,保证其可以正常读写。
  3. 在FusionInsight Manager首页,选择“集群 > 服务 > Kafka > 实例”,进入Kafka实例页面,重启2中主机名上的Broker实例。

    重启Broker实例期间,若当前Topic为单副本且在当前Broker节点上,则会导致Kafka业务中断,否则无影响。

  4. 等待Broker启动完成之后,观察界面告警是否清除。

    • 是,处理完毕。
    • 否,执行8

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“Kafka”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。

相关文档