ALM-38013 Produce请求在请求队列的时延超过阈值
告警解释
系统每30秒周期性检测Broker实例的Produce请求在请求队列的时延,当检测到某个Broker上的Produce请求在请求队列的时延连续10次超出阈值时产生该告警。
当Produce请求在请求队列的时延小于或等于阈值时,告警消除。
该告警仅适用于MRS 3.5.0及之后版本。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
38013 |
紧急(默认阈值为60000) 重要(默认阈值为30000) |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
对系统的影响
Broker实例的Produce请求在请求队列的时延超过阈值,请求队列堆积造成写入请求的响应时间增加,对于时延敏感型业务,可能会导致大量的业务写入请求超时。
可能原因
- Broker用于处理请求的线程数配置不合理。
- 慢盘故障。
- Broker磁盘IO繁忙。
- Broker的分区分布不均匀,存在热点。
处理步骤
检查Broker用于处理请求的线程数配置是否不合理。
- 登录FusionInsight Manager,选择“集群 > 服务 > Kafka> 配置 > 全部配置”。
- 搜索并查看“num.io.threads”参数值,如果参数值过小,适当增大参数值,建议调整为CPU核数的2倍,最大不超过64,保存配置。
- 单击“实例”页签,勾选所有Broker实例,选择“更多 > 滚动重启实例”。
重启期间服务业务可能受损或中断,请在业务低峰期重启该实例。
- 等待5分钟,查看告警是否自动清除。
- 是,操作结束。
- 否,执行5。
检查是否慢盘故障。
- 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,查看此告警的详细信息,记录定位信息中上报告警的“主机名”名称。
- 查看5上报告警的节点是否存在“慢盘故障”或“磁盘不可用”告警。
- 是,参考“ALM-12033 慢盘故障”或“ALM-12063 磁盘不可用”告警处理步骤进行处理。
- 否,执行8。
- 等待5分钟,查看告警是否自动清除。
- 是,操作结束。
- 否,执行8。
检查是否Broker磁盘IO繁忙。
检查是否Broker的分区分布不均匀,存在热点。
- 选择“集群 > 服务 > Kafka > 图表”在分类中选择“分区”,单击“Partition数目-所有实例”右上角的放大图标,选择“分布图”,查看Broker上分区分布是否均衡。
图1 Broker上分区分布不均衡示例
- 单击最右侧分区不均衡的条柱,查看是否包含5中获取的当前告警上报的节点,如果包含则需要执行数据均衡。
- 等待5分钟,查看告警是否自动清除。
- 是,操作结束。
- 否,执行13。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。