更新时间:2022-08-12 GMT+08:00
ZooKeeper健康检查指标项说明
ZooKeeper服务处理请求平均延时
指标项名称:ZooKeeper服务处理请求平均延时
指标项含义:检查ZooKeeper服务处理请求的平均延时,如果大于300毫秒,则认为不健康。
恢复指导: 如果该指标项异常,则需要检查集群的网络速度是否正常、内存或CPU使用率是否过高。
ZooKeeper连接数使用率
指标项名称:ZooKeeper连接数使用率
指标项含义:检查ZooKeeper内存使用率是否超过80%。如果超过阈值,则认为不健康。
恢复指导:如果该指标项异常,建议增加ZooKeeper服务可以使用的内存。可以通过ZooKeeper服务配置中的“GC_OPTS”配置项参数-Xmx来修改,修改完成需重启ZooKeeper服务。
服务健康状态
指标项名称:服务状态
指标项含义:检查ZooKeeper服务状态是否正常。如果状态不正常,则认为不健康。
恢复指导:如果该指标项异常,建议检查KrbServer、LdapServer两个服务的健康状态是否为故障并进行处理。然后登录ZooKeeper客户端,确认ZooKeeper是否无法写入数据,根据错误提示排查ZooKeeper写数据失败的原因。最后参告警ALM-13000进行处理。
检查告警
指标项名称:告警信息
指标项含义:检查服务是否存在未清除的告警。如果存在,则认为不健康。
恢复指导:如果该指标项异常,建议参见告警进行处理。
父主题: 健康检查管理