消息从生产到消费时延高达6分钟

消息从生产到消费的端到端时延偶现到达6分钟，业务对消息时延较为敏感。

怀疑是业务堆积，处理慢导致时延。
通过查看监控数据，发现业务请求并不是很多，堆积最多时也只有50条消息，同时每秒新增消息只有10条左右，应该还没有到达处理极限。
排查EIP流量情况，发现入流量存在下降的场景。
联系EIP服务技术人员协助排查，未发现问题。
从业务日志中分析消费组行为。
通过查看服务端日志，消费组存在大量rebalance动作，大部分rebalance都会秒级完成，但偶尔会有分钟级别的rebalance耗时，而rebalance过程中是无法正常消费的，只有在rebalance动作完成才可以进行消费。

该现象与问题现象描述的偶现长时间时延行为相吻合，问题确定。

查看用户消费组行为日志文件，文件中存在以下三种日志：

Preparing to rebalance group 1
表示消费组开始进行rebalance，消费组状态变更为REBALANCING。
Stabilized group
表示消费组rebalance完成，消费组状态变更为STABILIZED。
Member consumer-xxx in group 1 has failed
表示消费组内的某一个消费者超时退出，一般触发场景是消费者长时间没有与服务端通信导致，比如处理消息耗时太久阻塞等。

对文件中每次Preparing到Stabilized完成的时间进行计算得到以下结果图。图中时间为UTC+0时间，对应北京时间需要加8小时。

图1 消费组rebalance图
点击放大

从以上图中可以看出，消费组rebalance的性能在7月1号06:49（即北京时间7月1号14:49）以后存在明显劣化的情况，导致客户端异常。

用户业务中偶尔会存在某一个消费者无法及时响应rebalance的动作，导致整个消费组消费阻塞，一直到该消费者响应rebalance动作为止。

建议用户根据业务区分不同消费组使用，降低单消费者阻塞导致的影响访问。
max.poll.interval.ms用于设置消费组请求消费消息的最大时间间隔，如果消费者在超时前没有发起下一次消费请求，服务端会触发rebalance。调大max.poll.interval.ms的默认配置，降低问题频率。

消费组可以简单认为有两种状态REBALANCING和STABILIZED。

REBALANCING：消费组元数据发生变化，该状态下消费组中的所有消费者都无法进行正常的业务消费，该场景触发场景为消费组内有新的消费者加入或有已经建立连接的消费者退出。
STABILIZED：rebalance完成，消费组处于稳定状态，该状态下消费组中的消费者可以进行正常的业务消费，触发条件是，当前消费组内的所有消费者都同步完成新的消费组元数据，包括之前已经同步过的消费者，也需要重新同步。

消费组简单流程如下：

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消