更新时间:2024-10-28 GMT+08:00

查看监控指标

概述

云监控服务(Cloud Eye)可以监控和查看云服务的运行状态、各个指标的使用情况,并对监控项创建告警规则。

当您开通ROMA Connect服务后,云监控服务会自动关联ROMA Connect的监控指标,帮助您实时掌握ROMA Connect的各项性能指标,精确掌握ROMA Connect的运行情况。

开通云监控服务

云监控服务默认开通使用。

如果需要查看ROMA Connect相关的监控指标,请参见查看云服务监控指标

如果需要在监控数据满足指定条件时发送报警通知,可参见创建告警规则

FDI支持的监控指标

表1 FDI支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

active_task_count

活跃任务数

统计此实例下当前处于运行状态任务总数。

如果项目已经进入稳定运行阶段,运行的任务数相对固定,希望在发生因异常情况导致任务停止时能第一时间告警,可以配置此指标监控。

≥0

单位:个

实例

5分钟

task_count

总任务数

统计此实例下当前存在的FDI任务总数,不区分运行状态。

如果项目已经进入稳定运行阶段,任务数相对固定,不会频繁的增删任务时,希望在发生误删除任务的情况时能第一时间告警,可以配置此指标监控。

≥0

单位:个

实例

5分钟

data_size

数据大小

统计上一个统计周期内,此实例下所有任务累计写入数据的总大小。

如果希望写入的数据大小超过或低于某个阈值时触发告警,可以配置此指标监控。

≥0

单位:Byte/KB/MB/GB/TB/PB

实例

5分钟

data_count

数据条数

统计上一个统计周期内,此实例下所有任务累计写入数据的总条数。

如果希望写入的数据条数超过或低于某个阈值时触发告警,可以配置此指标监控。

≥0

单位:条

实例

5分钟

success_task_count

成功任务数

统计上一个统计周期内,此实例下所有任务累计执行成功的次数。

≥0

单位:个

实例

5分钟

fail_task_count

失败任务数

统计上一个统计周期内,此实例下所有任务累计执行失败的次数。

≥0

单位:个

实例

5分钟

task_fail_count

执行失败次数

统计上个统计周期内,此任务执行出错的次数。

≥0

单位:个

实例

5分钟

cdc_unsubmitted_transaction_delay

CDC未提交最早事务的时延

统计CDC任务(组合任务)当前在处理的还未提交的最早事务对应时间距离实时的时间差。

对于MySQL类型的CDC任务,此指标表示任务正在读取的Binlog日志对应的时间与当前系统时间的差值,代表了实时读取的延迟情况。此指标的值与任务调度日志页面中显示的“读端实时监控”是一致的。

≥0

单位:毫秒

任务

1分钟

cdc_submitted_transaction_delay

CDC已提交最新事务的时延

统计CDC任务(组合任务)当前已经提交的最新事务对应时间距离实时的时间差。此指标主要针对Oracle类型任务,MySQL类型可忽略。

CDC已经处理结束、成功同步到目标端的最新的那个事务时间与当前时间的时间差,此指标比较真实的反映了数据写入的实际延迟,根据项目实际业务数据量配置延迟,建议配置 >= 3600 (1小时)。

≥0

单位:毫秒

任务

1分钟

cdc_big_transaction_count

CDC超大事务个数

统计CDC任务读取到的超大事务的个数。此指标主要针对Oracle类型任务,MySQL类型可忽略。

如果一个事务的数据量超过了10W,可认定此事务为超大事务,此指标统计上一统计周期内(5分钟)出现超大事务的数量,根据业务实际情况,如果认为实际业务不应该存在超过10W 数据量的事务,则可以配置 >= 1。

≥0

单位:个

任务

5分钟

cdc_expired_transaction_count

CDC超时事务个数

统计CDC任务读取到的超时事务的个数。

≥0

单位:个

任务

1分钟

APIC支持的监控指标

表2 APIC支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

data_api_request_count

Data API调用次数

统计Data API调用次数。

≥0

实例

1分钟

data_api_max_latency

Data API最大延迟毫秒数

统计Data API最大响应延时时间。

≥0

单位:毫秒

实例

1分钟

data_api_avg_latency

Data API平均延迟毫秒数

统计Data API平均响应延时时间。

≥0

单位:毫秒

实例

1分钟

data_api_errors

Data API错误次数

统计Data API错误次数。

≥0

实例

1分钟

func_api_request_count

Function API调用次数

统计Function API调用次数。

≥0

实例

1分钟

func_api_max_latency

Function API最大延迟毫秒数

统计Function API最大响应延时时间。

≥0

单位:毫秒

实例

1分钟

func_api_avg_latency

Function API平均延迟毫秒数

统计Function API平均响应延时时间。

≥0

单位:毫秒

实例

1分钟

func_api_errors

Function API错误次数

统计Function API错误次数。

≥0

实例

1分钟

requests

接口调用次数

统计测量api接口被调用的次数。

≥0

实例

1分钟

error_4xx

4xx 异常次数

统计测量api接口返回4xx错误的次数。

≥0

实例

1分钟

error_5xx

5xx 异常次数

统计测量api接口返回5xx错误的次数。

≥0

实例

1分钟

throttled_calls

被流控的调用次数

统计测量api被流控的调用次数。

≥0

实例

1分钟

avg_latency

平均延迟毫秒数

统计测量api接口平均响应延时时间。

≥0

实例

1分钟

max_latency

最大延迟毫秒数

统计测量api接口最大响应延时时间。

≥0

单位:毫秒

实例

1分钟

req_count

接口调用次数

统计测量api接口调用次数。

≥0

单个API

1分钟

req_count_2xx

2xx调用次数

统计测量api接口调用2xx的次数。

≥0

单个API

1分钟

req_count_4xx

4xx异常次数

统计测量api接口返回4xx错误的次数。

≥0

单个API

1分钟

req_count_5xx

5xx异常次数

统计测量api接口返回5xx错误的次数。

≥0

单个API

1分钟

req_count_error

异常次数

统计测量api接口总的错误次数。

≥0

单个API

1分钟

avg_latency

平均延迟毫秒数

统计测量api接口平均响应延时时间。

≥0

单位:毫秒

单个API

1分钟

max_latency

最大延迟毫秒数

统计测量api接口最大响应延时时间。

≥0

单位:毫秒

单个API

1分钟

input_throughput

流入流量

统计测量api接口请求流量。

≥0

单位:Byte/KB/MB/GB/TB/PB

单个API

1分钟

output_throughput

流出流量

统计测量api接口返回流量。

≥0

单位:Byte/KB/MB/GB/TB/PB

单个API

1分钟

MQS支持的监控指标

表3 MQS支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

current_partitions

分区数

统计实例中已经使用的分区数量。

≥0

单位:个

实例

1分钟

current_topics

主题数

统计实例中已经创建的主题数量。

≥0

单位:个

实例

1分钟

group_msgs

堆积消息数

统计实例中所有消费组中总堆积消息数。

≥0

单位:个

实例

1分钟

broker_data_size

节点数据容量

统计节点当前的消息数据大小。

≥0

单位:Byte/KB/MB/GB/TB/PB

节点

1分钟

broker_messages_in_rate

消息生产速率

统计每秒生产的消息数量。

≥0

单位:个/秒

节点

1分钟

broker_bytes_out_rate

消费流量

统计每秒消费的字节数。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

broker_bytes_in_rate

生产流量

统计每秒生产的字节数。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

broker_public_bytes_in_rate

公网入流量

统计Broker节点每秒公网访问流入流量。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

broker_public_bytes_out_rate

公网出流量

统计Broker节点每秒公网访问流出流量。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

broker_fetch_mean

生产请求平均处理时长

统计Broker节点处理生产请求平均时长。

≥0

单位:毫秒

节点

1分钟

broker_produce_mean

消费请求平均处理时长

统计Broker节点处理消费请求平均时长。

≥0

单位:毫秒

节点

1分钟

broker_alive

节点存活状态

统计MQS节点是否存活。

≥0

节点

1分钟

broker_connections

连接数

统计MQS节点当前所有TCP连接数量。

≥0

单位:个

节点

1分钟

broker_cpu_usage

CPU使用率

统计MQS节点虚拟机的CPU使用率。

≥0

单位:百分比

节点

1分钟

broker_disk_read_await

磁盘平均读操作耗时

统计磁盘在测量周期内平均每个读IO的操作时长。

≥0

单位:毫秒

节点

1分钟

broker_disk_write_await

磁盘平均写操作耗时

统计磁盘在测量周期内平均每个写IO的操作时长。

≥0

单位:毫秒

节点

1分钟

broker_total_bytes_in_rate

网络入流量

统计MQS节点每秒网络访问流入流量。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

broker_total_bytes_out_rate

网络出流量

统计MQS节点每秒网络访问流出流量。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

broker_cpu_core_load

CPU核均负载

统计MQS节点虚拟机CPU每个核的平均负载。

≥0

节点

1分钟

broker_disk_usage

磁盘容量使用率

统计MQS节点虚拟机的磁盘容量使用率。

≥0

单位:百分比

节点

1分钟

broker_memory_usage

内存使用率

统计MQS节点虚拟机的内存使用率。

≥0

单位:百分比

节点

1分钟

broker_heap_usage

Kafka进程JVM堆内存使用率

统计MQS节点Kafka进程JVM中的堆内存使用率。

≥0

单位:百分比

节点

1分钟

produced_messages

生产消息数

统计Rest节点每分钟生产消息数。

≥0

单位:个

节点

1分钟

topic_bytes_in_rate

生产流量

统计Rest每秒钟生产流量。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

topic_bytes_out_rate

消费流量

统计Rest每秒钟消费流量。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

节点

1分钟

topic_messages_in_rate

消息生产速率

统计每秒生产的消息数量。

≥0

单位:个/秒

队列

1分钟

topic_bytes_out_rate

消费流量

统计每秒消费的字节数。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

队列

1分钟

topic_bytes_in_rate

生产流量

统计每秒生产的字节数。

≥0

单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s

队列

1分钟

topic_messages

队列消息总数

统计队列当前的消息总数。

≥0

单位:个

队列

1分钟

produced_messages

生产消息数

统计目前生产的消息总数。

≥0

单位:个

队列

1分钟

partition_messages

分区消息数

统计分区中当前的消息个数。

≥0

单位:个

队列

1分钟

messages_consumed

分区已消费消息数

统计当前消费组已经消费的消息个数。

≥0

单位:个

消费组

1分钟

messages_remained

分区可消费消息数

统计消费组可消费的消息个数。

≥0

单位:个

消费组

1分钟

topic_messages_remained

队列可消费消息数

统计消费组指定队列可以消费的消息个数。

≥0

单位:个

消费组

1分钟

topic_messages_consumed

队列已消费消息数

统计消费组指定队列当前已经消费的消息数。

≥0

单位:个

消费组

1分钟

consumer_messages_remained

消费组可消费消息数

统计消费组剩余可以消费的消息个数。

≥0

单位:个

消费组

1分钟

consumer_messages_consumed

消费组已消费消息数

统计消费组当前已经消费的消息数。

≥0

单位:个

消费组

1分钟

LINK支持的监控指标

表4 LINK支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

online_connections

在线设备数

该指标用于统计用户在线设备的连接数。

≥0

单位:个

实例

1分钟

msg_count

消息总数

该指标用于统计用户所有设备发送的消息总数。

≥0

单位:个

实例

1分钟

msg_tps

TPS

该指标用于统计时间区间内设备每秒发送消息数。

≥0

单位:次/秒

实例

1分钟

msg_max_latency

发送消息最大时延

该指标用于统计时间区间内设备发送消息延迟毫秒数。

≥0

单位:毫秒

实例

1分钟

维度

Key

Value

instance_id

ROMA Connect实例

fdi

数据集成

apic

服务集成

kafka_instance_id

消息集成实例

kafka_broker

消息集成Broker节点

kafka_rest

消息集成Rest节点

kafka_topics

消息集成队列

kafka_partitions

消息集成分区

kafka_groups-partitions

消息集成分区的消费组

kafka_groups_topics

消息集成队列的消费组

kafka_groups

消息集成消费组

link

设备集成