ALM-38013 Produce请求在请求队列的时延超过阈值

系统每30秒周期性检测Broker实例的Produce请求在请求队列的时延，当检测到某个Broker上的Produce请求在请求队列的时延连续10次超出阈值时产生该告警。

当Produce请求在请求队列的时延小于或等于阈值时，告警消除。

本章节仅适用于MRS 3.5.0-LTS及之后版本。

告警ID	告警级别	是否可自动清除
38013	紧急（默认阈值为60000）重要（默认阈值为30000）	是

告警ID

告警级别

是否可自动清除

38013

紧急（默认阈值为60000）

重要（默认阈值为30000）

是

Broker实例的Produce请求在请求队列的时延超过阈值，请求队列堆积造成写入请求的响应时间增加，对于时延敏感型业务，可能会导致大量的业务写入请求超时。

检查Broker用于处理请求的线程数配置是否不合理。

检查是否慢盘故障。

在FusionInsight Manager界面，选择“运维 > 告警 > 告警”，查看此告警的详细信息，记录定位信息中上报告警的“主机名”名称。
查看步骤 5上报告警的节点是否存在“慢盘故障”或“磁盘不可用”告警。
- 是，参考“ALM-12033 慢盘故障”或“ALM-12063 磁盘不可用”告警处理步骤进行处理。
- 否，执行步骤 8。
等待5分钟，查看告警是否自动清除。
- 是，操作结束。
- 否，执行步骤 8。

检查是否Broker磁盘IO繁忙。

查看步骤 5中上报告警节点是否存在“Broker磁盘IO繁忙”告警。
- 是，参考“ALM-38009 Broker磁盘IO繁忙”告警处理步骤进行处理，然后执行步骤 9。
- 否，执行步骤 10。
等待5分钟，查看告警是否自动清除。
- 是，操作结束。
- 否，执行步骤 10。

检查是否Broker的分区分布不均匀，存在热点。

选择“集群 > 服务 > Kafka > 图表”在分类中选择“分区”，单击“Partition数目-所有实例”右上角的放大图标，选择“分布图”，查看Broker上分区分布是否均衡。

图1 Broker上分区分布不均衡示例
- 是，执行步骤 13。
- 否，执行步骤 11。
单击最右侧分区不均衡的条柱，查看是否包含步骤 5中获取的当前告警上报的节点，如果包含则需要执行数据均衡。
等待5分钟，查看告警是否自动清除。
- 是，操作结束。
- 否，执行步骤 13。