ALM-38012 Broker的分区数量超过阈值
告警解释
系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维 > 告警 > 阈值设置> 服务 > Kafka”修改阈值。当分区数小于或等于阈值时,告警清除。
该告警仅适用于MRS 3.5.0及之后版本。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
38012 |
紧急(默认阈值为6000) 重要(默认阈值为3000) |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
对系统的影响
Broker的分区数超出阈值,过多的分区会加剧Broker的负载,使得内存、磁盘IO、CPU等资源出现瓶颈,最终导致请求响应变慢,甚至超时。
可能原因
- Broker的分区分布不均衡,或Kafka集群超规格使用。
- 无用的Topic较多。
处理步骤
检查Broker上分区分布是否均衡。
- 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,在当前告警详情查看“定位信息”中产生该告警的服务实例和主机。
- 选择“集群 > 服务 > Kafka > 图表”,在分类中选择“分区”,单击“Partition数目-所有实例”右上角的放大图标,选择“分布图”,查看Broker上分区分布是否均衡。
图1 Broker上分区分布不均衡示例
- 如果Broker上分区均衡,说明Kafka集群超规格使用,需要扩容Broker实例。然后执行5。
在Manager界面选择“集群 > 服务 > Kafka > 实例 > 添加实例”,根据提示添加Broker实例。
- 单击最右侧分区不均衡的条柱,如果只有上报告警的Broker节点上分区数量过多,则需要执行数据均衡。
- 等待5分钟,查看告警是否自动清除。
- 是,操作结束。
- 否,执行6。
确认是否无用的Topic较多。
- 根据集群实际情况,确认是否存在无用的Topic。
- 是,参考如下步骤清理无用的Topic。清理Topic为高危操作,清理前需要确保Topic未使用,确保删除的准确性。
- 否,执行8。
- 等待5分钟,查看告警是否自动清除。
- 是,操作结束。
- 否,执行8。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。