文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
更新时间:2024-10-24 GMT+08:00

ALM-13005 ZooKeeper中组件顶层目录的配额设置失败

告警解释

系统每5小时周期性为组件和“customized.quota”配置项中的每个ZooKeeper顶层目录设置配额,当设置某个目录的配额失败时,会产生该告警。

当设置失败的目录重新设置配额成功时,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

13005

次要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

服务目录

产生告警的目录名称。

Trigger Condition

产生告警的具体原因。

对系统的影响

组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致依赖顶层目录的上游组件(例如Yarn、Flink、Spark等)业务异常或服务异常。

可能原因

告警目录对应的配额值不合理。

处理步骤

检查告警目录对应的配额值是否合理。

  1. 在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > 配额”。查看“customized.quota”配置项中,是否有产生该告警的告警目录及对应的配额值。

    • 是,执行5
    • 否,执行2

  2. 查看下表中的组件告警目录列中,是否有产生该告警的告警目录。

    表1 各组件告警目录

    组件名称

    组件告警目录

    Hbase

    /hbase

    Hive

    /beelinesql

    Yarn

    /rmstore

    Storm

    /stormroot

    Streaming

    /storm

    Kafka

    /kafka

    • 是,执行3
    • 否,执行7

  3. 查看该表中告警目录对应的组件名称,并打开其相应的服务界面,选择“配置 > 全部配置”,右上角搜索框输入“zk.quota”,搜索结果就是该告警目录对应的配额值。
  4. 检查产生告警的目录对应的配额值是否不合理。合理的配额值应该大于等于目录当前的实际使用值,该值可以在告警参数“Trigger Condition”中获取。
  5. 根据告警信息的提示,修改不合理的配额值,并保存配置。
  6. 等待配置项“service.quotas.auto.check.cron.expression”中指定的定时时长后,查看告警是否消失。

    “service.quotas.auto.check.cron.expression”参数表示ZooKeeper设置目录的配额时所采用的定时表达式。可以在Manager页面选择“集群 > 服务 > ZooKeeper > 配置 > 全部配置”,搜索该参数进行配置。参数默认值为“*/5 * * * *”,表示时长为5分钟。

    • 是,处理完毕。
    • 否,执行7

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“ZooKeeper”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。