文档首页/ MapReduce服务 MRS/ 用户指南(安卡拉区域)/ 告警参考/ ALM-33012 Containers服务ZooKeeper客户端连接丢失
更新时间:2024-11-29 GMT+08:00

ALM-33012 Containers服务ZooKeeper客户端连接丢失

告警解释

FusionInsight RTD集群中有多个模块包含了ZooKeeper客户端,当客户端与ZooKeeper服务端断开连接时触发此告警。

连接恢复后,该告警自动清除。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

33012

次要

通信告警

Containers

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

客户端位置

ZooKeeper客户端位置信息。

服务端地址

ZooKeeper服务端地址。

对系统的影响

ZooKeeper客户端连接丢失,可能导致FusionInsight RTD集群中依赖于ZooKeeper的功能不可用。

可能原因

  • ZooKeeper故障。
  • 网络故障导致ZooKeeper客户端连接失败。

处理步骤

查看ZooKeeper是否故障。

  1. 在FusionInsight Manager首页,选择“集群 > 服务 > ZooKeeper”,查看ZooKeeper服务的运行状态是否良好。

    • 是,执行3
    • 否,执行2

  2. 选择“更多 > 重启服务”,输入密码重启ZooKeeper,重启成功后查看告警是否清除。

    • 是,处理完毕。
    • 否,执行3

查看是否网络故障导致ZooKeeper客户端连接失败。

  1. 根据告警中的客户端位置信息和服务端地址检查客户端和服务端网络是否正常,时间是否一致。

    • 是,执行5
    • 否,执行4

  2. 修复网络、调整时间使客户端和服务端相差在5分钟以内(非安全集群不用考虑时间问题),等待5分钟查看告警是否清除。

    • 是,处理完毕。
    • 否,执行5

收集故障信息。

  1. 在FusionInsight Manager界面,单击“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Containers”。
  3. 在“主机”中勾选对应角色所在的主机。
  4. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。