ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值

告警解释

系统每120秒周期性检测HBase服务的znode使用情况，当检测到HBase服务的znode容量使用率超出紧急告警的阈值（默认90%）时产生该告警。

当znode的容量使用率小于严重告警的阈值（默认75%）时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
19014	紧急	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Threshold	产生告警的阈值。

对系统的影响

产生该告警表示HBase服务的znode的容量使用率已经严重超过规定的阈值，会导致HBase服务的写入请求失败。

可能原因

HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢。
HBase集群存在大量的WAL文件在进行split。

处理步骤

检查znode容量配置和使用量。

在集群Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“19014”的告警，查看“附加信息”中的阈值。

登录集群Manager具体操作，请参考访问MRS集群Manager。
以root用户登录安装HBase客户端的节点，执行以下命令：

切换至客户端安装目录：
```
cd 客户端安装目录
```
设置环境变量：
```
source bigdata_env
```
如果集群已启用Kerberos认证（安全模式），需执行以下命令进行安全认证：
```
kinit hbase
```
按提示输入密码（向MRS集群管理员获取密码）。
登录ZooKeeper客户端并查看HBase服务的znode容量配额：
1. 执行以下命令登录ZooKeeper客户端：
```
hbase zkcli
```
2. 执行以下命令查看对应HBase服务的znode容量配额：
```
listquota /hbase
```
  “/hbase”表示ZooKeeper中的HBase的根znode目录，可在HBase服务的参数配置页面搜索“zookeeper.znode.parent”参数获取。
  
  例如，下图标注所示即为当前HBase服务根znode的容量配置。
执行以下命令查看“/hbase/splitWAL”znode的容量使用情况，查看返回结果的“Data size”根znode容量配额的比值是否接近告警的阈值。
```
getusage /hbase/splitWAL
```
- 是，执行步骤 5。
- 否，执行步骤 6。
在Manager首页，选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“12007”、“19000”或者“19013”且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行步骤 8。
- 否，执行步骤 9。
执行以下命令查看“/hbase/replication”znode的容量使用情况，查看返回结果的“Data size”根znode容量配额的比值是否接近告警的阈值。
```
getusage /hbase/replication
```
- 是，执行步骤 7。
- 否，执行步骤 9。
选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“19006”且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行步骤 8。
- 否，执行步骤 9。
等待5分钟，观察界面告警是否清除。
- 是，处理完毕。
- 否，执行步骤 9。