文档首页/ MapReduce服务 MRS/ 用户指南(安卡拉区域)/ 告警参考/ ALM-13007 ZooKeeper客户端可用连接数不足
更新时间:2024-11-29 GMT+08:00

ALM-13007 ZooKeeper客户端可用连接数不足

告警解释

系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数,当检测到连接数目超过阈值时产生该告警。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

13007

紧急(默认阈值为2200)

重要(默认阈值为2000)

次要(默认阈值为1800)

业务质量告警

ZooKeeper

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

大量进程连接到ZooKeeper,导致ZooKeeper连接数被占满,无法对外正常提供服务,导致上游组件(例如Yarn、Flink、Spark等)服务异常。

可能原因

客户端大量进程连接到ZooKeeper,或者自定义阈值设置不合理。

处理步骤

检查客户端是否存在大量进程连接ZooKeeper的情况

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper客户端可用连接数不足”所在行的下拉菜单,在定位信息中确认告警上报的主机名所在的节点IP地址。
  2. 选择“集群 > 待操作集群的名称 > 服务 > ZooKeeper”,单击“资源”进入资源页面,在表“连接数(按客户端IP)”中查看告警对应客户端IP的连接数是否较大。

    • 是,执行3
    • 否,执行4

  3. 请确认并排查该客户端是否存在进程连接泄露的情况。
  4. 单击“连接数(按客户端IP)”中的,进入“阈值设置”页面,单击“操作”下的“修改”。参考“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > quorumpeer”中参数“ maxClientCnxns”的值,调大阈值。
  5. 观察界面告警是否清除。

    • 是,处理完毕。
    • 否,执行6

收集故障信息

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“ZooKeeper”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。