更新时间:2024-11-22 GMT+08:00
分享

ALM-12207 慢盘处理超时

告警解释

当慢盘检测开关打开时,系统默认每隔10分钟检测一次慢盘处理情况,当磁盘或者节点处于如下状态且超过10小时状态未发生变更,则认为磁盘或者节点处理超时,上报该告警。

  • 磁盘:自动隔离中止、已隔离、隔离失败、解除隔离失败。
  • 节点:已隔离、隔离失败、取消隔离失败、启动节点失败、已解除隔离。

当处于处理超时的节点或者磁盘状态发生变更时,告警自动恢复。

该告警仅适用于MRS 3.3.1及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

12207

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

磁盘名

产生告警的磁盘名。

附加信息

主机名

产生告警的主机名。

磁盘名

产生告警的磁盘名。

详细信息

慢盘隔离描述信息。

对系统的影响

处于隔离状态的磁盘或者节点不能及时恢复,可能会对大数据组件运行产生影响,进而影响用户业务使用。

可能原因

磁盘或者节点隔离状态超过慢盘处理超时配置时间。

处理步骤

检查慢盘处理超时原因。

  1. 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详细信息,查看并记录告警上报的主机或磁盘信息。
  2. root用户登录主OMS节点,执行以下命令查看controller日志中慢盘处理超时原因,并检查是否存在明显报错信息。

    vi /var/log/Bigdata/controller/controller.log

    • 是,执行4
    • 否,执行3

  3. root用户登录告警上报节点,执行以下命令查看agent日志中慢盘处理超时原因,并检查是否存在明显报错信息。

    vi /var/log/Bigdata/nodeagent/agentlog/agent.log

    • 是,执行4
    • 否,执行5

  4. 联系运维人员处理故障,并手动执行慢盘或者节点操作命令,等待命令执行完成后观察五分钟查看告警是否清除。

    • 是,处理完毕。
    • 否,执行5

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Controller”和“NodeAgent”,在主机中勾选主备OMS节点及告警上报节点主机,单击“确定”。
  3. 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

相关文档