Kafka支持的监控指标
功能说明
本章节定义了分布式消息服务Kafka版上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,您可以通过云监控服务的管理控制台或API接口来检索Kafka实例产生的监控指标和告警信息,也可以通过分布式消息服务Kafka版控制台提供的“监控”页面来检索Kafka实例产生的监控指标。
例如,通过API接口获取磁盘容量使用率监控指标信息,可参考API接口-查询监控数据。
命名空间
SYS.DMS
实例监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
current_partitions |
分区数 |
该指标用于统计Kafka实例中已经使用的分区数量。 单位:个 |
0~100000 |
Kafka实例 |
1分钟 |
current_topics |
主题数 |
该指标用于统计Kafka实例中已经创建的主题数量。 单位:个 |
0~100000 |
Kafka实例 |
1分钟 |
group_msgs |
堆积消息数 |
该指标用于统计Kafka实例中所有消费组中总堆积消息数。 单位:个 |
0~1000000000 |
Kafka实例 |
1分钟 |
instance_bytes_in_rate |
生产流量 |
统计实例中每秒生产的字节数。 单位:Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s
说明:
部分存量实例不支持此监控,具体以控制台为准。 |
0~1000000 |
Kafka实例 |
1分钟 |
instance_bytes_out_rate |
消费流量 |
统计实例中每秒消费的字节数。 单位:Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s
说明:
部分存量实例不支持此监控,具体以控制台为准。 |
0~1000000 |
Kafka实例 |
1分钟 |
节点监控指标
Kafka实例开启Smart Connect后,会创建两个或以上用于Smart Connect的代理。在“节点”页签中,“节点类型”选择“connector”,查看Smart Connect代理的相关监控。“节点类型”选择“broker”,查看Kafka实例代理的相关监控。
Smart Connect代理的监控指标包括:磁盘容量使用率、内存使用率、JVM堆内存使用率、节点存活状态和连接数。
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
broker_data_size |
节点数据容量 |
该指标用于统计节点当前的消息数据大小。 单位:Byte、KB、MB、GB、TB、PB |
0~5000000000000 |
Kafka实例节点 |
1分钟 |
broker_messages_in_rate |
消息生产速率 |
该指标用于统计每秒生产的消息数量。 单位:Count/s |
0~500000 |
Kafka实例节点 |
1分钟 |
broker_bytes_out_rate |
消费流量 |
该指标用于统计每秒消费的字节数。 单位:Byte/s、KB/s、MB/s、GB/s |
0~500000000 |
Kafka实例节点 |
1分钟 |
broker_bytes_in_rate |
生产流量 |
该指标用于统计每秒生产的字节数。 单位:Byte/s、KB/s、MB/s、GB/s |
0~500000000 |
Kafka实例节点 |
1分钟 |
broker_public_bytes_in_rate |
公网入流量 |
统计Broker节点每秒公网访问流入流量。 单位:Byte/s、KB/s、MB/s、GB/s
说明:
已开启公网访问,并且设置了弹性IP地址的实例,支持此监控项。 |
0~500000000 |
Kafka实例节点 |
1分钟 |
broker_public_bytes_out_rate |
公网出流量 |
统计Broker节点每秒公网访问流出流量。 单位:Byte/s、KB/s、MB/s、GB/s
说明:
已开启公网访问,并且设置了弹性IP地址的实例,支持此监控项。 |
0~500000000 |
Kafka实例节点 |
1分钟 |
broker_fetch_mean |
消费请求平均处理时长 |
统计Broker节点处理消费请求平均时长。 单位:ms |
0~10000 |
Kafka实例节点 |
1分钟 |
broker_produce_mean |
生产请求平均处理时长 |
统计Broker节点处理生产请求平均时长。 单位:ms |
0~10000 |
Kafka实例节点 |
1分钟 |
broker_cpu_core_load |
CPU核均负载 |
该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。 单位:% |
0~20 |
Kafka实例节点 |
1分钟 |
broker_disk_usage |
磁盘容量使用率 |
该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。 单位:% |
0~100% |
Kafka实例节点 |
1分钟 |
broker_memory_usage |
内存使用率 |
该指标为Kafka节点虚拟机层面采集的内存使用率。 单位:% |
0~100% |
Kafka实例节点 |
1分钟 |
broker_heap_usage |
JVM堆内存使用率 |
该指标从Kafka节点Kafka进程JVM中采集的堆内存使用率。 单位:% |
0~100% |
Kafka实例节点 |
1分钟 |
broker_alive |
节点存活状态 |
表示Kafka节点是否存活。
说明:
2020年4月及以后购买的实例,支持此监控项。 |
|
Kafka实例节点 |
1分钟 |
broker_connections |
连接数 |
统计Kafka节点当前所有TCP连接数量。 单位:Count
说明:
2020年4月及以后购买的实例,支持此监控项。 |
0~65535 |
Kafka实例节点 |
1分钟 |
broker_cpu_usage |
CPU使用率 |
统计Kafka节点虚拟机的CPU使用率。 单位:%
说明:
2020年4月及以后购买的实例,支持此监控项。 |
0~100% |
Kafka实例节点 |
1分钟 |
broker_disk_read_await |
磁盘平均读操作耗时 |
该指标用于统计磁盘在测量周期内平均每个读IO的操作时长。 单位:ms
说明:
2020年6月及以后购买的实例,支持此监控项。 |
>0 |
Kafka实例节点 |
1分钟 |
broker_disk_write_await |
磁盘平均写操作耗时 |
该指标用于统计磁盘在测量周期内平均每个写IO的操作时长。 单位:ms
说明:
2020年6月及以后购买的实例,支持此监控项。 |
>0 |
Kafka实例节点 |
1分钟 |
broker_total_bytes_in_rate |
网络入流量 |
统计Broker节点每秒网络访问流入流量。 单位:Byte/s
说明:
2020年6月及以后购买的实例,支持此监控项。 |
0~1000000000 |
Kafka实例节点 |
1分钟 |
broker_total_bytes_out_rate |
网络出流量 |
统计Broker节点每秒网络访问流出流量。 单位:Byte/s
说明:
2020年6月及以后购买的实例,支持此监控项。 |
0~1000000000 |
Kafka实例节点 |
1分钟 |
broker_disk_read_rate |
磁盘读流量 |
磁盘读操作流量。 单位:Byte/s、KB/s、MB/s、GB/s
说明:
2022年5月16号及以后购买的实例,支持此监控项。 |
>=0 |
Kafka实例节点 |
1分钟 |
broker_disk_write_rate |
磁盘写流量 |
磁盘写操作流量。 单位:Byte/s、KB/s、MB/s、GB/s
说明:
2022年5月16号及以后购买的实例,支持此监控项。 |
>=0 |
Kafka实例节点 |
1分钟 |
network_bandwidth_usage |
网络带宽利用率 |
网络带宽利用率。 单位:%
说明:
|
0~100% |
Kafka实例节点 |
1分钟 |
主题监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
topic_bytes_in_rate |
生产流量 |
该指标用于统计每秒生产的字节数。 单位:Byte/s、KB/s、MB/s、GB/s
说明:
在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 |
0~500000000 |
Kafka实例队列 |
1分钟 |
topic_bytes_out_rate |
消费流量 |
该指标用于统计每秒消费的字节数。 单位:Byte/s、KB/s、MB/s、GB/s
说明:
在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 |
0~500000000 |
Kafka实例队列 |
1分钟 |
topic_data_size |
队列数据容量 |
该指标用于统计队列当前的消息数据大小。 单位:Byte、KB、MB、GB、TB、PB
说明:
在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 |
0~5000000000000 |
Kafka实例队列 |
1分钟 |
topic_messages |
队列消息总数 |
该指标用于统计队列当前的消息总数。 单位:Count
说明:
在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 |
≥ 0 |
Kafka实例队列 |
1分钟 |
topic_messages_in_rate |
消息生产速率 |
该指标用于统计每秒生产的消息数量。 单位:Count/s
说明:
在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 |
0~500000 |
Kafka实例队列 |
1分钟 |
partition_messages |
分区消息数 |
该指标用于统计分区中当前的消息个数。 单位:Count
说明:
在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 |
≥ 0 |
Kafka实例队列 |
1分钟 |
produced_messages |
生产消息数 |
该指标用于统计目前生产的消息总数。 单位:Count
说明:
在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 |
≥ 0 |
Kafka实例队列 |
1分钟 |
消费组监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
messages_consumed |
分区已消费消息数 |
该指标用于统计当前消费组已经消费的消息个数。 单位:Count
说明:
在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 |
≥ 0 |
Kafka实例的消费组 |
1分钟 |
messages_remained |
分区可消费消息数 |
该指标用于统计消费组可消费的消息个数。 单位:Count
说明:
在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 |
≥ 0 |
Kafka实例的消费组 |
1分钟 |
topic_messages_remained |
队列可消费消息数 |
该指标用于统计消费组指定队列可以消费的消息个数。 单位:个
说明:
在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 |
0~(263-1) |
Kafka实例的消费组 |
1分钟 |
topic_messages_consumed |
队列已消费消息数 |
该指标用于统计消费组指定队列当前已经消费的消息数。 单位:个
说明:
在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 |
0~(263-1) |
Kafka实例的消费组 |
1分钟 |
consumer_messages_remained |
消息堆积数(消费组可消费消息数) |
该指标用于统计消费组剩余可以消费的消息个数。 单位:个
说明:
在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 |
0~(263-1) |
Kafka实例的消费组 |
1分钟 |
consumer_messages_consumed |
消费组已消费消息数 |
该指标用于统计消费组当前已经消费的消息数。 单位:个
说明:
在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 |
0~(263-1) |
Kafka实例的消费组 |
1分钟 |
messages_consumed_per_min |
分区消费速率 |
统计消费组指定队列分区每分钟的消费数。 单位:个/分钟
说明:
|
0~30000000 |
Kafka实例的消费组 |
1分钟 |
topic_messages_consumed_per_min |
队列消费速率 |
统计消费组指定队列每分钟的消费数。 单位:个/分钟
说明:
|
0~30000000 |
Kafka实例的消费组 |
1分钟 |
consumer_messages_consumed_per_min |
消费组消费速率 |
统计消费组每分钟的消费数。 单位:个/分钟
说明:
|
0~30000000 |
Kafka实例的消费组 |
1分钟 |
Smart Connect监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
kafka_wait_synchronize_data |
待同步Kafka数据量 |
Kafka任务的待同步数据量。 单位:Count |
≥ 0 |
Kafka实例的Smart Connect任务 |
1分钟 |
kafka_synchronize_rate |
Kafka每分钟同步数据量 |
Kafka任务每分钟同步的数据量。 单位:Count |
≥ 0 |
Kafka实例的Smart Connect任务 |
1分钟 |
task_status |
任务状态 |
当前任务状态。 |
|
Kafka实例的Smart Connect任务 |
1分钟 |
message_delay |
消息时延 |
消息到达源端的时间与到达目标端的时间之差。 单位:ms |
≥ 0 |
Kafka实例的Smart Connect任务 |
1分钟 |
- Kafka双向数据复制的Smart Connect任务在监控中会被拆分为2个任务,分别为“Smart Connect任务名_source_0”和“Smart Connect任务名_source_1”。
- 如果Topic中的消息在进行下一次数据同步前,已经全部老化,此时实际是没有待同步的Kafka数据,但是Kafka数据同步监控指标使用的是包含老化数据的offset值,“待同步Kafka数据量”会显示老化的消息数。
维度
Key |
Value |
---|---|
kafka_instance_id |
Kafka实例 |
kafka_broker |
Kafka实例节点 |
kafka_topics |
Kafka实例主题 |
kafka_partitions |
Kafka实例分区 |
kafka_groups-partitions |
Kafka实例分区的消费组 |
kafka_groups_topics |
Kafka实例队列的消费组 |
kafka_groups |
Kafka实例的消费组 |
connector_task |
Kafka实例的Smart Connect任务 |