ALM-12207 慢盘处理超时
告警解释
当慢盘检测开关打开时,系统默认每隔10分钟检测一次慢盘处理情况,当磁盘或者节点处于如下状态且超过10小时状态未发生变更,则认为磁盘或者节点处理超时,上报该告警。
- 磁盘:自动隔离中止、已隔离、隔离失败、解除隔离失败。
- 节点:已隔离、隔离失败、取消隔离失败、启动节点失败、已解除隔离。
当处于处理超时的节点或者磁盘状态发生变更时,告警自动恢复。
该告警仅适用于MRS 3.3.1及之后版本。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
12207 |
重要 |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
磁盘名 |
产生告警的磁盘名。 |
|
附加信息 |
主机名 |
产生告警的主机名。 |
磁盘名 |
产生告警的磁盘名。 |
|
详细信息 |
慢盘隔离描述信息。 |
对系统的影响
处于隔离状态的磁盘或者节点不能及时恢复,可能会对大数据组件运行产生影响,进而影响用户业务使用。
可能原因
磁盘或者节点隔离状态超过慢盘处理超时配置时间。
处理步骤
检查慢盘处理超时原因。
- 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详细信息,查看并记录告警上报的主机或磁盘信息。
- 以root用户登录主OMS节点,执行以下命令查看controller日志中慢盘处理超时原因,并检查是否存在明显报错信息。
vi /var/log/Bigdata/controller/controller.log
- 以root用户登录告警上报节点,执行以下命令查看agent日志中慢盘处理超时原因,并检查是否存在明显报错信息。
vi /var/log/Bigdata/nodeagent/agentlog/agent.log
- 联系运维人员处理故障,并手动执行慢盘或者节点操作命令,等待命令执行完成后观察五分钟查看告警是否清除。
- 是,处理完毕。
- 否,执行5。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。