文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值

更新时间：2024-08-13 GMT+08:00

ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值

告警解释

系统每120秒周期性检测HBase服务的znode使用情况，当检测到HBase服务的znode数量使用率超出紧急告警的阈值（默认90%）时产生该告警。

当znode的数量使用率小于严重告警的阈值时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
19016	紧急	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Threshold	产生告警的阈值。

对系统的影响

产生该告警表示HBase服务的znode的数量使用率已经严重超过规定的阈值，会导致HBase服务的写入请求失败。

可能原因

HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢；
HBase集群存在大量的WAL文件在进行split。

处理步骤

检查znode数量配置和使用量

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“19016”的告警，查看“附加信息”中的阈值。
以root用户登录HBase客户端，用户密码为安装前用户自定义，请咨询系统管理员。执行以下命令进入客户端安装目录：

cd 客户端安装目录

然后执行以下命令设置环境变量：

source bigdata_env

如果集群采用安全版本，要执行以下命令进行安全认证：

kinit hbase

按提示输入密码（向MRS集群管理员获取密码）。
执行hbase zkcli命令进入ZooKeeper客户端，然后执行命令listquota /hbase查看对应HBase服务的znode容量配额，其中命令中的znode根目录为对应HBase服务的参数“zookeeper.znode.parent”所指定。下图标注所示即为当前HBase服务根znode的容量配置。
执行命令getusage /hbase/splitWAL查看该znode的数量使用情况，查看返回结果的“Node count”跟znode数量配额的比值是否接近告警的阈值。
- 是，执行5。
- 否，执行6。
在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“12007”、“19000”或者“19013”且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行8。
- 否，执行9。
执行命令getusage /hbase/replication查看该znode的数量使用情况，查看返回结果的“Node count”跟znode数量配额的比值是否接近告警的阈值。
- 是，执行7。
- 否，执行9。
选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“19006”并且“定位信息”中的“服务名”为当前HBase服务的告警。
- 是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行8。
- 否，执行9。
观察界面告警是否清除。
- 是，处理完毕。
- 否，执行9。

收集故障信息

在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
在“服务”中勾选待操作集群的“HBase”。
单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

父主题： MRS集群告警处理参考

上一篇：ALM-19015 在ZooKeeper上的数量配额使用率超过阈值

下一篇：ALM-19017 在ZooKeeper上的容量配额使用率超过阈值

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

告警清除

参考信息

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线