ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值

告警解释

系统每120秒周期性检测HBase服务的znode使用情况，当检测到HBase服务的znode数量使用率超出紧急告警的阈值（默认90%）时产生该告警。

当znode的数量使用率小于严重告警的阈值时，告警恢复。

告警属性

告警ID	告警级别	告警类型	业务类型	是否可自动清除
19016	紧急	业务质量告警	HBase	是

告警参数

类别	参数名称	参数含义
定位信息	来源	产生告警的集群名称。
	服务名	产生告警的服务名称。
	角色名	产生告警的角色名称。
	主机名	产生告警的主机名。
附加信息	Threshold	产生告警的阈值。

对系统的影响

产生该告警表示HBase服务的znode的数量使用率已经严重超过规定的阈值，会导致HBase服务的写入请求失败。

可能原因

HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢；
HBase集群存在大量的WAL文件在进行split。

处理步骤

检查znode数量配置和使用量

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“19016”的告警，查看“附加信息”中的阈值。
以root用户登录HBase客户端。执行以下命令进入客户端安装目录：

cd 客户端安装目录

然后执行以下命令设置环境变量：

source bigdata_env

如果集群采用安全版本，要执行以下命令进行安全认证：

kinit hbase

按提示输入密码（向MRS集群管理员获取密码）。
执行hbase zkcli命令进入ZooKeeper客户端，然后执行命令listquota /hbase查看对应HBase服务的znode容量配额，其中命令中的znode根目录为对应HBase服务的参数“zookeeper.znode.parent”所指定。下图标注所示即为当前HBase服务根znode的容量配置。
执行命令getusage /hbase/splitWAL查看该znode的数量使用情况，查看返回结果的“Node count”跟znode数量配额的比值是否接近告警的阈值。
- 是，执行5。
- 否，执行6。
在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“12007”、“19000”或者“19013”且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行8。
- 否，执行9。
执行命令getusage /hbase/replication查看该znode的数量使用情况，查看返回结果的“Node count”跟znode数量配额的比值是否接近告警的阈值。
- 是，执行7。
- 否，执行9。
选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“19006”并且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行8。
- 否，执行9。
观察界面告警是否清除。
- 是，处理完毕。
- 否，执行9。

收集故障信息

在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
在“服务”中勾选待操作集群的“HBase”。
单击右上角的时间编辑按钮，设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

不涉及。

父主题： 告警参考

上一篇：ALM-19015 在ZooKeeper上的数量配额使用率超过阈值

下一篇：ALM-19017 在ZooKeeper上的容量配额使用率超过阈值

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消