ALM-19035 RegionServer Call队列大小超过阈值

系统每30秒周期性检测每个HBase服务的RegionServer实例的Call队列大小，当检测到某个RegionServer上的Call队列大小连续10次超出阈值时产生该告警。

当RegionServer实例的Call队列大小小于或等于阈值时，告警消除。

本章节仅适用于MRS 3.3.1-LTS及之后版本。

告警ID	告警级别	是否可自动清除
19035	紧急（默认阈值为800MB）重要（默认阈值为600MB）	是

告警ID

告警级别

是否可自动清除

19035

紧急（默认阈值为800MB）

重要（默认阈值为600MB）

是

RegionServer Call队列大小超过阈值，请求队列堆积会导致RegionServer内存GC压力，造成读写请求的响应时间增加，对于时延敏感型业务，可能会导致大量的业务读写请求超时。

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看“告警ID”为“19035”的告警的“定位信息”中上报该告警的服务实例和主机名。

检查RegionServer堆内存配置。

在FusionInsight Manager的告警列表中，查看步骤 1中的告警实例是否有“HBase服务进程堆内存使用率超过阈值”告警产生。
- 是，执行步骤 3。
- 否，执行步骤 5。
参考“ALM-19008 HBase服务进程堆内存使用率超过阈值”的处理步骤处理该故障。
等待几分钟后，在告警列表中查看该告警是否清除。
- 是，处理完毕。
- 否，执行步骤 5。
在FusionInsight Manager首页，选择“集群 > 服务 > HBase > 图表”，在“图表分类”中选择“GC”，查看GC次数和GC时间监控是否异常。
- 是，执行步骤 6。
- 否，执行步骤 9。
单击“配置”，在搜索框中搜索“GC_OPTS”，在RegionServer所在节点内存允许范围内，适当调大RegionServer该参数的“Xmx”值，建议最大值不超过31GB，单击“保存”保存配置。
单击“概览”，选择“更多 > 重启服务”，重启HBase服务。

HBase服务重启期间，HBase服务的业务无法使用，包括数据读写、表相关操作、访问HBase WebUI界面等。
等待几分钟后，在告警列表中查看该告警是否清除。
- 是，处理完毕。
- 否，执行步骤 9。

检查慢盘故障。

检查RegionServer配置。

在FusionInsight Manager首页，选择“集群 > 服务 > HBase > 配置 > 全部配置”，查看配置项“hbase.wal.hsync”和“hbase.hfile.hsync”参数值是否都为“true”。
- 是，执行步骤 13。
- 否，执行步骤 15。
将“hbase.wal.hsync”和“hbase.hfile.hsync”参数值都配置为“false”，单击“保存”保存配置。单击“概览”，选择“更多 > 重启服务”，重启HBase服务。
等待几分钟后，在告警列表中查看该告警是否清除。
- 是，处理完毕。
- 否，执行步骤 15。

检查RegionServer Region分布是否均衡。

在FusionInsight Manager首页，选择“集群 > 服务 > HBase”，单击“HMaster Web UI”右侧“HMaster(主)”超链接，进入该HBase实例的WebUI界面，查看“Region Servers”区域“Base Stats”页签“Num.Regions”列上Region的个数分布是否均衡。
- 是，执行步骤 20。
- 否，执行步骤 16。
以omm用户登录故障RegionServer节点。
进入客户端安装目录，设置环境变量。

cd 客户端安装目录

source bigdata_env

kinit 归属于supergroup用户组或具备Global的Admin权限的用户（集群未启用Kerberos认证（普通模式）请跳过该操作）