配置Kafka监控告警
本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,建议按照以下告警策略,配置监控指标的告警规则。
指标ID |
指标名称 |
测量对象 |
告警策略 |
指标说明 |
告警处理建议 |
---|---|---|---|---|---|
broker_disk_usage |
磁盘容量使用率 |
节点 |
告警阈值:原始值>80% 连续触发次数:1 告警级别:紧急 |
该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。 |
出现该告警时,需要修改实例存储空间。具体操作,请参考变更实例规格。 |
broker_memory_usage |
内存使用率 |
节点 |
告警阈值:原始值>90% 连续触发次数:3 告警级别:紧急 |
该指标为Kafka节点虚拟机层面采集的内存使用率。 |
出现该告警时,需要修改实例基准带宽/代理个数,即扩节点。具体操作,请参考变更实例规格。 |
current_partitions |
分区数 |
实例 |
告警阈值:原始值>分区数上限的90%,不同实例规格分区数上限不同,具体参考产品规格。 连续触发次数:1 告警级别:重要 |
该指标用于统计Kafka实例中已经使用的分区数量。 |
出现该告警时,如果业务后续还需要新增Topic,则需要修改实例基准带宽/代理个数或将业务拆分至多个实例。修改实例基准带宽/代理个数的具体操作,请参考变更实例规格。 |
broker_cpu_usage |
CPU使用率 |
节点 |
告警阈值:原始值>90% 连续触发次数:3 告警级别:重要 |
统计Kafka节点虚拟机的CPU使用率。 |
出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要修改实例基准带宽/代理个数,即扩节点。具体操作,请参考变更实例规格。 |
group_msgs |
堆积消息数 |
实例 |
告警阈值:原始值>积压上限的90%,积压上限由您根据业务实际情况设定 连续触发次数:1 告警级别:重要 |
该指标用于统计Kafka实例中所有消费组中总堆积消息数。 |
出现该告警时,首先排查是否有闲置消费组,如果有,则删除。其次,可以考虑加快消费速度,例如增加组内消费者数量等。 |
topic_messages_remained |
队列可消费消息数 |
消费组 |
告警阈值:原始值>积压上限的90%,积压上限由您根据业务实际情况设定 连续触发次数:1 告警级别:重要 |
该指标用于统计消费组指定队列可以消费的消息个数。 |
出现该告警时,首先排查消费者代码逻辑是否有误,例如消费者出现了异常不再消费等。其次,可以考虑加快消息的消费,例如增加队列消费者,并确保分区数大于或等于消费者数。 |
task_status |
任务状态 |
Smart Connect任务 |
告警阈值:原始值<1 连续触发次数:3 告警级别:重要 |
该指标用于统计Smart Connect任务状态是否正常。 |
出现该告警时,首先在Smart Connect任务列表页面暂停任务,然后再重新启动任务,观察任务状态指标是否恢复。若仍未恢复,建议联系客服处理。 |
配置Kafka告警规则
以下步骤指导您配置指定Kafka实例的告警规则。
查看Kafka实例告警规则
以下步骤指导您查询指定Kafka实例的所有告警规则。
- 登录Kafka控制台。
- 在管理控制台左上角单击
,选择Kafka实例所在的区域。
- 在管理控制台左上角单击
,选择“管理与监管 > 云监控服务 CES”,进入云监控服务总览页面。
- 在左侧导航栏单击“云服务监控”,进入“云服务监控”页面。
- 在顶部搜索框中输入“分布式消息服务”,按Enter。
- 单击“分布式消息服务 DMS”,进入“资源详情”页签。
- 在待查看告警规则的Kafka实例所在行,单击“更多 > 查看告警规则”,弹出“查看告警规则”对话框,查看此Kafka实例的所有告警规则。