配置RocketMQ监控告警
本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,建议按照以下告警策略,配置监控指标的告警规则。
是否接近性能上限,表示当前资源支撑的性能为告警策略中设置的告警阈值,如果继续上升,业务可能出现问题。
| 指标ID | 指标名称 | 测量对象 | 告警策略 | 指标说明 | 告警处理建议 |
|---|---|---|---|---|---|
| instance_accumulation | 消息堆积数 | 实例 | 告警阈值:原始值>积压上限的90%,积压上限由您根据业务实际情况设定 连续触发次数:1 告警级别:重要 | 该指标用于统计RocketMQ实例中所有消费组的总堆积消息数。 | 出现该告警时,首先排查是否有闲置消费组,如果有,则删除。其次,可以考虑加快消费速度,例如增加组内消费者数量。 |
| broker_disk_usage | 磁盘容量使用率 | 节点 | 告警阈值:原始值>85 连续触发次数:3 告警级别:紧急 | 该指标为从RocketMQ节点虚拟机层面采集的磁盘容量使用率。单位:%。 | 出现该告警时,说明当前实例规格已不足以承载业务,需要扩容存储空间。具体操作,请参考变更实例规格。 |
| broker_cpu_usage | CPU使用率 | 节点 | 告警阈值:原始值>80 连续触发次数:3 告警级别:重要 | 该指标为从RocketMQ节点虚拟机层面采集的CPU使用率。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要扩容实例代理个数。具体操作,请参考变更实例规格。 |
| broker_disk_read_await | 磁盘平均读操作耗时 (仅RocketMQ 4.8.0版本) | 节点 | 告警阈值:原始值>20 连续触发次数:3 告警级别:重要 | 该指标为从RocketMQ节点磁盘读时延,当磁盘性能到达上限时,磁盘读、写时延会上升,导致RocketMQ生产、消费时延增大。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要扩容实例代理个数。具体操作,请参考变更实例规格。 |
| broker_disk_write_await | 磁盘平均写操作耗时 (仅RocketMQ 4.8.0版本) | 节点 | 告警阈值:原始值>20 连续触发次数:3 告警级别:重要 | 该指标为从RocketMQ节点磁盘写时延,当磁盘性能到达上限时,磁盘读、写时延会上升,导致RocketMQ生产、消费时延增大。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要扩容实例代理个数。具体操作,请参考变更实例规格。 |
操作视频
本视频演示配置RocketMQ监控告警通知的操作。
因产品功能演进,操作界面可能存在差异,相关视频仅供参考,具体以实际环境为准。
配置RocketMQ监控告警
- 登录RocketMQ实例控制台。
- 在RocketMQ实例名称后,单击“查看监控数据”。
进入云监控该实例的监控指标页面。
- 在实例监控指标页面中,找到需要创建告警的指标项,鼠标移动到指标区域,然后单击指标右上角的
,创建告警规则。 跳转到创建告警规则页面。
- 在告警规则页面,设置告警信息。
创建告警规则操作,请查看创建告警规则。
相关文档
Topic监控数据无法正常展示的处理方法请参见云监控无法展示Topic监控数据?。
