必须配置的监控告警

本章节主要介绍部分监控指标的告警策略，以及配置操作。在实际业务中，建议按照以下告警策略，配置监控指标的告警规则。

表1 Kafka实例配置告警的指标
指标ID	指标名称	告警策略	指标说明	告警处理建议
broker_disk_usage	磁盘容量使用率	告警阈值：原始值>80% 连续触发次数：1 告警级别：紧急	该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。	出现该告警时，需要修改实例存储空间。具体操作，请参考变更实例规格。
broker_cpu_core_load	CPU核均负载	告警阈值：原始值>2 连续触发次数：3 告警级别：重要	该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。	出现该告警时，先检查该监控是否长期处于接近或超过告警阈值状态，如果是，需要修改实例基准带宽/代理个数，即扩节点。具体操作，请参考变更实例规格。
broker_memory_usage	内存使用率	告警阈值：原始值>90% 连续触发次数：3 告警级别：紧急	该指标为Kafka节点虚拟机层面采集的内存使用率。	出现该告警时，需要修改实例基准带宽/代理个数，即扩节点。具体操作，请参考变更实例规格。
current_partitions	分区数	告警阈值：原始值>分区数上限的90%，不同实例规格分区数上限不同，具体参考产品规格。连续触发次数：1 告警级别：重要	该指标用于统计Kafka实例中已经使用的分区数量。	出现该告警时，如果业务后续还需要新增Topic，则需要修改实例基准带宽/代理个数或将业务拆分至多个实例。修改实例基准带宽/代理个数的具体操作，请参考变更实例规格。
broker_cpu_usage	CPU使用率	告警阈值：原始值>90% 连续触发次数：3 告警级别：重要	统计Kafka节点虚拟机的CPU使用率。	出现该告警时，先检查该监控是否长期处于接近或超过告警阈值状态，如果是，需要修改实例基准带宽/代理个数，即扩节点。具体操作，请参考变更实例规格。
group_msgs	堆积消息数	告警阈值：原始值>积压上限的90%，积压上限由您根据业务实际情况设定连续触发次数：1 告警级别：重要	该指标用于统计Kafka实例中所有消费组中总堆积消息数。	出现该告警时，首先排查是否有闲置消费组，如果有，则删除。其次，可以考虑加快消费速度，例如增加组内消费者数量等。
topic_messages_remained	队列可消费消息数	告警阈值：原始值>积压上限的90%，积压上限由您根据业务实际情况设定连续触发次数：1 告警级别：重要	该指标用于统计消费组指定队列可以消费的消息个数。	出现该告警时，首先排查消费者代码逻辑是否有误，例如消费者出现了异常不再消费等。其次，可以考虑加快消息的消费，例如增加队列消费者，并确保分区数大于或等于消费者数。

操作步骤

登录管理控制台。
在管理控制台左上角单击，选择区域。

请选择Kafka实例所在的区域。
在管理控制台左上角单击，选择“应用服务 > 分布式消息服务 Kafka”，进入分布式消息服务Kafka专享版页面。
在Kafka实例名称后，单击。

进入云监控该实例的监控指标页面。
在实例监控指标页面中，找到需要创建告警的指标项，鼠标移动到指标区域，然后单击指标右上角的，创建告警规则，跳转到创建告警规则页面。
在告警规则页面，设置告警信息。

创建告警规则操作，请查看创建告警规则。
1. 设置告警名称和告警的描述。
2. 设置告警策略和告警级别。
  如下图所示，在进行指标监控时，如果连续3个周期，磁盘容量使用率原始值超过85%，则产生告警，如果未及时处理，则产生告警通知。
  
  图1 设置告警策略和告警级别
3. 设置“发送通知”开关。当开启时，设置告警生效时间、产生告警时通知的对象以及触发的条件。
4. 单击“立即创建”，等待创建告警规则成功。