ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值

告警解释

系统每120秒周期性检测HBase服务的znode使用情况，当检测到HBase服务的znode数量使用率超出紧急告警的阈值（默认90%）时产生该告警。

当znode的数量使用率小于严重告警的阈值时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
19016	紧急	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Threshold	产生告警的阈值。

对系统的影响

产生该告警表示HBase服务的znode的数量使用率已经严重超过规定的阈值，会导致HBase服务的写入请求失败。

可能原因

HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢；
HBase集群存在大量的WAL文件在进行split。

处理步骤

检查znode数量配置和使用量

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“19016”的告警，查看“附加信息”中的阈值。
以root用户登录HBase客户端。执行以下命令进入客户端安装目录：

cd 客户端安装目录

然后执行以下命令设置环境变量：

source bigdata_env

如果集群采用安全版本，要执行以下命令进行安全认证：

kinit hbase

按提示输入密码（向MRS集群管理员获取密码）。
执行hbase zkcli命令进入ZooKeeper客户端，然后执行命令listquota /hbase查看对应HBase服务的znode容量配额，其中命令中的znode根目录为对应HBase服务的参数“zookeeper.znode.parent”所指定。下图标注所示即为当前HBase服务根znode的容量配置。
执行命令getusage /hbase/splitWAL查看该znode的数量使用情况，查看返回结果的“Node count”跟znode数量配额的比值是否接近告警的阈值。
- 是，执行步骤 5。
- 否，执行步骤 6。
在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“12007”、“19000”或者“19013”且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行步骤 8。
- 否，执行步骤 9。
执行命令getusage /hbase/replication查看该znode的数量使用情况，查看返回结果的“Node count”跟znode数量配额的比值是否接近告警的阈值。
- 是，执行步骤 7。
- 否，执行步骤 9。
选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“19006”并且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行步骤 8。
- 否，执行步骤 9。
观察界面告警是否清除。
- 是，处理完毕。
- 否，执行步骤 9。