更新时间:2024-01-11 GMT+08:00

支持的监控指标

功能说明

本章节定义了分布式消息服务Kafka版上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,您可以通过云监控服务的管理控制台或API接口来检索Kafka实例产生的监控指标和告警信息,也可以通过分布式消息服务Kafka版控制台提供的“监控”页面来检索Kafka实例产生的监控指标。

例如,通过API接口获取磁盘容量使用率监控指标信息,可参考API接口-查询监控数据

命名空间

SYS.DMS

实例监控指标

表1 实例支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

current_partitions

分区数

该指标用于统计Kafka实例中已经使用的分区数量。

单位:Count

0~1800

Kafka实例

1分钟

current_topics

主题数

该指标用于统计Kafka实例中已经创建的主题数量。

单位:Count

0~1800

Kafka实例

1分钟

group_msgs

堆积消息数

该指标用于统计Kafka实例中所有消费组中总堆积消息数。

单位:Count

0~1000000000

Kafka实例

1分钟

节点监控指标

表2 节点支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

broker_data_size

节点数据容量

该指标用于统计节点当前的消息数据大小。

单位:Byte、KB、MB、GB、TB、PB

0~5000000000000

Kafka实例节点

1分钟

broker_messages_in_rate

消息生产速率

该指标用于统计每秒生产的消息数量。

单位:Count/s

0~500000

Kafka实例节点

1分钟

broker_bytes_out_rate

消费流量

该指标用于统计每秒消费的字节数。

单位:Byte/s、KB/s、MB/s、GB/s

0~500000000

Kafka实例节点

1分钟

broker_bytes_in_rate

生产流量

该指标用于统计每秒生产的字节数。

单位:Byte/s、KB/s、MB/s、GB/s

0~500000000

Kafka实例节点

1分钟

broker_public_bytes_in_rate

公网入流量

统计Broker节点每秒公网访问流入流量。

单位:Byte/s、KB/s、MB/s、GB/s

说明:

已开启公网访问,并且设置了弹性IP地址的实例,请在弹性公网IP服务中查看此监控指标。

0~500000000

Kafka实例节点

1分钟

broker_public_bytes_out_rate

公网出流量

统计Broker节点每秒公网访问流出流量。

单位:Byte/s、KB/s、MB/s、GB/s

说明:

已开启公网访问,并且设置了弹性IP地址的实例,请在弹性公网IP服务中查看此监控指标。

0~500000000

Kafka实例节点

1分钟

broker_fetch_mean

消费请求平均处理时长

统计Broker节点处理消费请求平均时长。

单位:ms

0~10000

Kafka实例节点

1分钟

broker_produce_mean

生产请求平均处理时长

统计Broker节点处理生产请求平均时长。

单位:ms

0~10000

Kafka实例节点

1分钟

broker_cpu_core_load

CPU核均负载

该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。

单位:%

0~20

Kafka实例节点

1分钟

broker_disk_usage

磁盘容量使用率

该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。

单位:%

0~100%

Kafka实例节点

1分钟

broker_memory_usage

内存使用率

该指标为Kafka节点虚拟机层面采集的内存使用率。

单位:%

0~100%

Kafka实例节点

1分钟

broker_heap_usage

Kafka进程JVM堆内存使用率

该指标从Kafka节点Kafka进程JVM中采集的堆内存使用率。

单位:%

0~100%

Kafka实例节点

1分钟

broker_alive

节点存活状态

表示Kafka节点是否存活。

说明:

2020年4月及以后购买的实例,支持此监控项。

  • 1:存活
  • 0:离线

Kafka实例节点

1分钟

broker_connections

连接数

统计Kafka节点当前所有TCP连接数量。

单位:Count

说明:

2020年4月及以后购买的实例,支持此监控项。

0~65535

Kafka实例节点

1分钟

broker_cpu_usage

CPU使用率

统计Kafka节点虚拟机的CPU使用率。

单位:%

说明:

2020年4月及以后购买的实例,支持此监控项。

0~100%

Kafka实例节点

1分钟

broker_disk_read_await

磁盘平均读操作耗时

该指标用于统计磁盘在测量周期内平均每个读IO的操作时长。

单位:ms

说明:

2020年6月及以后购买的实例,支持此监控项。

>0

Kafka实例节点

1分钟

broker_disk_write_await

磁盘平均写操作耗时

该指标用于统计磁盘在测量周期内平均每个写IO的操作时长。

单位:ms

说明:

2020年6月及以后购买的实例,支持此监控项。

>0

Kafka实例节点

1分钟

broker_total_bytes_in_rate

网络入流量

统计Broker节点每秒网络访问流入流量。

单位:Byte/s

说明:

2020年6月及以后购买的实例,支持此监控项。

0~1000000000

Kafka实例节点

1分钟

broker_total_bytes_out_rate

网络出流量

统计Broker节点每秒网络访问流出流量。

单位:Byte/s

说明:

2020年6月及以后购买的实例,支持此监控项。

0~1000000000

Kafka实例节点

1分钟

broker_disk_read_rate

磁盘读流量

磁盘读操作流量。

单位:Byte/s、KB/s、MB/s、GB/s

说明:

2022年5月16号及以后购买的实例,支持此监控项。

>=0

Kafka实例节点

1分钟

broker_disk_write_rate

磁盘写流量

磁盘写操作流量。

单位:Byte/s、KB/s、MB/s、GB/s

说明:

2022年5月16号及以后购买的实例,支持此监控项。

>=0

Kafka实例节点

1分钟

network_bandwidth_usage

网络带宽利用率

网络带宽利用率。

单位:%

说明:
  • 2023年7月9号及以后购买的实例,支持此监控项。
  • 2023年7月9号前购买的实例,如果在2023年7月9号及以后扩容代理数量,新扩容的代理支持此监控项。

0~100%

Kafka实例节点

1分钟

主题监控指标

表3 主题支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

topic_bytes_in_rate

生产流量

该指标用于统计每秒生产的字节数。

单位:Byte/s、KB/s、MB/s、GB/s

说明:

在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。

0~500000000

Kafka实例队列

1分钟

topic_bytes_out_rate

消费流量

该指标用于统计每秒消费的字节数。

单位:Byte/s、KB/s、MB/s、GB/s

说明:

在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。

0~500000000

Kafka实例队列

1分钟

topic_data_size

队列数据容量

该指标用于统计队列当前的消息数据大小。

单位:Byte、KB、MB、GB、TB、PB

说明:

在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。

0~5000000000000

Kafka实例队列

1分钟

topic_messages

队列消息总数

该指标用于统计队列当前的消息总数。

单位:Count

说明:

在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。

≥ 0

Kafka实例队列

1分钟

topic_messages_in_rate

消息生产速率

该指标用于统计每秒生产的消息数量。

单位:Count/s

说明:

在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。

0~500000

Kafka实例队列

1分钟

partition_messages

分区消息数

该指标用于统计分区中当前的消息个数。

单位:Count

说明:

在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。

≥ 0

Kafka实例队列

1分钟

produced_messages

生产消息数

该指标用于统计目前生产的消息总数。

单位:Count

说明:

在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。

≥ 0

Kafka实例队列

1分钟

消费组监控指标

表4 消费组支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

messages_consumed

分区已消费消息数

该指标用于统计当前消费组已经消费的消息个数。

单位:Count

说明:

在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。

≥ 0

Kafka实例的消费组

1分钟

messages_remained

分区可消费消息数

该指标用于统计消费组可消费的消息个数。

单位:Count

说明:

在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。

≥ 0

Kafka实例的消费组

1分钟

topic_messages_remained

队列可消费消息数

该指标用于统计消费组指定队列可以消费的消息个数。

单位:个

说明:

在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。

0~(263-1)

Kafka实例的消费组

1分钟

topic_messages_consumed

队列已消费消息数

该指标用于统计消费组指定队列当前已经消费的消息数。

单位:个

说明:

在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。

0~(263-1)

Kafka实例的消费组

1分钟

consumer_messages_remained

消息堆积数(消费组可消费消息数)

该指标用于统计消费组剩余可以消费的消息个数。

单位:个

说明:

在“消费组”页签,“主题”为“全部队列”时,才包含该指标。

0~(263-1)

Kafka实例的消费组

1分钟

consumer_messages_consumed

消费组已消费消息数

该指标用于统计消费组当前已经消费的消息数。

单位:个

说明:

在“消费组”页签,“主题”为“全部队列”时,才包含该指标。

0~(263-1)

Kafka实例的消费组

1分钟

messages_consumed_per_min

分区消费速率

统计消费组指定队列分区每分钟的消费数。

单位:个/分钟

说明:
  • 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。
  • 部分存量实例不支持此监控,具体以控制台为准。

0~30000000

Kafka实例的消费组

1分钟

topic_messages_consumed_per_min

队列消费速率

统计消费组指定队列每分钟的消费数。

单位:个/分钟

说明:
  • 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。
  • 部分存量实例不支持此监控,具体以控制台为准。

0~30000000

Kafka实例的消费组

1分钟

consumer_messages_consumed_per_min

消费组消费速率

统计消费组每分钟的消费数。

单位:个/分钟

说明:
  • 在“消费组”页签,“主题”为“全部Topic”时,才包含该指标。
  • 部分存量实例不支持此监控,具体以控制台为准。

0~30000000

Kafka实例的消费组

1分钟

Smart Connect监控指标

表5 Smart Connect支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

redis_wait_synchronize_data

待同步Redis数据量

Redis任务的待同步数据量。

单位:Byte、KB、MB、GB、TB、PB

≥ 0

Kafka实例的Smart Connect任务

1分钟

redis_synchronize_rate

Redis每分钟同步数据量

Redis任务每分钟同步的数据量。

单位:Byte、KB、MB、GB、TB、PB

≥ 0

Kafka实例的Smart Connect任务

1分钟

kafka_wait_synchronize_data

待同步Kafka数据量

Kafka任务的待同步数据量。

单位:Count

≥ 0

Kafka实例的Smart Connect任务

1分钟

kafka_synchronize_rate

Kafka每分钟同步数据量

Kafka任务每分钟同步的数据量。

单位:Count

≥ 0

Kafka实例的Smart Connect任务

1分钟

task_status

任务状态

当前任务状态。

  • 0:任务异常
  • 1:任务正常

Kafka实例的Smart Connect任务

1分钟

message_delay

消息时延

消息到达源端的时间与到达目标端的时间之差。

单位:ms

说明:

由于Redis不记录消息到达的时间,以Redis为源端的任务不支持此参数。

≥ 0

Kafka实例的Smart Connect任务

1分钟

  • Redis数据复制的Smart Connect任务或Redis数据转储至OBS的Smart Connect任务在监控中会被拆分为2个任务,分别为“Smart Connect任务名_source_0”和“Smart Connect任务名_sink_0”。

    “Smart Connect任务名_source_0”表示将源Redis实例中的数据复制到Kafka实例的Topic中,此时监控指标为“待同步Redis数据量”、“Redis每分钟同步数据量”和“任务状态”。“Smart Connect任务名_sink_0”表示通过Topic将源Redis实例中的数据复制到目标Redis实例/OBS桶中,此时监控指标为“待同步Kafka数据量”、“Kafka每分钟同步数据量”和“任务状态”。

    同一个监控任务中,不会同时存在Redis数据和Kafka数据。

  • Redis数据复制的Smart Connect任务,即使源Redis实例中没有数据需要做同步,此时“待同步Redis数据量”和“Redis每分钟同步数据量”也不为0,因为源Redis实例在没有数据写入的情况下,会自动增加offset值。
  • Kafka双向数据复制的Smart Connect任务在监控中会被拆分为2个任务,分别为“Smart Connect任务名_source_0”和“Smart Connect任务名_source_1”。
  • 如果Topic中的消息在进行下一次数据同步前,已经全部老化,此时实际是没有待同步的Kafka数据,但是Kafka数据同步监控指标使用的是包含老化数据的offset值,“待同步Kafka数据量”会显示老化的消息数。

维度

Key

Value

kafka_instance_id

Kafka实例

kafka_broker

Kafka实例节点

kafka_topics

Kafka实例主题

kafka_partitions

Kafka实例分区

kafka_groups-partitions

Kafka实例分区的消费组

kafka_groups_topics

Kafka实例队列的消费组

kafka_groups

Kafka实例的消费组

connector_task

Kafka实例的Smart Connect任务