更新时间:2024-11-12 GMT+08:00
ALM-19034 RegionServer WAL写入超时个数超过阈值
告警解释
系统每30秒周期性检测每个HBase服务的RegionServer实例的WAL写入超时个数,当检测到某个RegionServer上的WAL写入超时个数连续10次超出阈值时产生该告警。
当RegionServer实例的WAL写入超时个数小于或等于阈值时,告警消除。
该告警仅适用于MRS 3.3.1及之后版本。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
19034 |
|
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
|
附加信息 |
Threshold |
产生告警的阈值。 |
对系统的影响
RegionServer WAL写入超时个数超过阈值,会增加写操作的延迟,数据写入速度变慢,并且WAL写入超时过多可能导致数据写入性能严重下降。
可能原因
- 慢盘故障。
- RegionServer GC异常。
- HBase负载过高。
- WAL配置不合理。
处理步骤
检查是否存在慢盘故障。
- 在FusionInsight Manager的告警列表中,查看1中的告警实例是否有“慢盘故障”或“磁盘不可用”告警产生。
- 参考“ALM-12033 慢盘故障”或“ALM-12063 磁盘不可用”的处理步骤处理该故障。
- 等待几分钟后,在告警列表中查看该告警是否清除。
- 是,处理完毕。
- 否,执行5。
检查RegionServer GC是否异常。
- 在FusionInsight Manager的告警列表中,排查是否存在告警ID为“19007”的“HBase GC时间超过阈值”告警。
- 参考“ALM-19007 HBase GC时间超出阈值”的处理步骤处理该故障。
- 等待几分钟后,在告警列表中查看该告警是否清除。
- 是,处理完毕。
- 否,执行8。
检查HBase负载。
- 在FusionInsight Manager的告警列表中,排查是否存在告警ID为“19018”的“HBase合并队列超出阈值”告警。
- 参考“ALM-19018 HBase合并队列超出阈值”的处理步骤处理该故障。
- 等待几分钟后,在告警列表中查看该告警是否清除。
- 是,处理完毕。
- 否,执行11。
检查WAL配置。
- 在FusionInsight Manager首页,选择“集群 > 服务 > HBase > 配置 > 全部配置”,查看配置项“hbase.wal.hsync”和“hbase.hfile.hsync”参数值是否都为“true”。
- 将“hbase.wal.hsync”和“hbase.hfile.hsync”参数值都配置为“false”,单击“保存”保存配置。单击“概览”,选择“更多 > 重启服务”,重启HBase服务。
HBase服务重启期间,HBase服务的业务无法使用,包括数据读写、表相关操作、访问HBase WebUI界面等。
- 等待几分钟后,在告警列表中查看该告警是否清除。
- 是,处理完毕。
- 否,执行14。
收集故障信息
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
父主题: MRS集群告警处理参考