查看监控指标
概述
云监控服务(Cloud Eye)可以监控和查看云服务的运行状态、各个指标的使用情况,并对监控项创建告警规则。
当您开通ROMA Connect服务后,云监控服务会自动关联ROMA Connect的监控指标,帮助您实时掌握ROMA Connect的各项性能指标,精确掌握ROMA Connect的运行情况。
FDI支持的监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
active_task_count |
活跃任务数 |
统计此实例下当前处于运行状态任务总数。 如果项目已经进入稳定运行阶段,运行的任务数相对固定,希望在发生因异常情况导致任务停止时能第一时间告警,可以配置此指标监控。 |
≥0 单位:个 |
实例 |
5分钟 |
task_count |
总任务数 |
统计此实例下当前存在的FDI任务总数,不区分运行状态。 如果项目已经进入稳定运行阶段,任务数相对固定,不会频繁的增删任务时,希望在发生误删除任务的情况时能第一时间告警,可以配置此指标监控。 |
≥0 单位:个 |
实例 |
5分钟 |
data_size |
数据大小 |
统计上一个统计周期内,此实例下所有任务累计写入数据的总大小。 如果希望写入的数据大小超过或低于某个阈值时触发告警,可以配置此指标监控。 |
≥0 单位:Byte/KB/MB/GB/TB/PB |
实例 |
5分钟 |
data_count |
数据条数 |
统计上一个统计周期内,此实例下所有任务累计写入数据的总条数。 如果希望写入的数据条数超过或低于某个阈值时触发告警,可以配置此指标监控。 |
≥0 单位:条 |
实例 |
5分钟 |
success_task_count |
成功任务数 |
统计上一个统计周期内,此实例下所有任务累计执行成功的次数。 |
≥0 单位:个 |
实例 |
5分钟 |
fail_task_count |
失败任务数 |
统计上一个统计周期内,此实例下所有任务累计执行失败的次数。 |
≥0 单位:个 |
实例 |
5分钟 |
task_fail_count |
执行失败次数 |
统计上个统计周期内,此任务执行出错的次数。 |
≥0 单位:个 |
实例 |
5分钟 |
cdc_unsubmitted_transaction_delay |
CDC未提交最早事务的时延 |
统计CDC任务(组合任务)当前在处理的还未提交的最早事务对应时间距离实时的时间差。 对于MySQL类型的CDC任务,此指标表示任务正在读取的Binlog日志对应的时间与当前系统时间的差值,代表了实时读取的延迟情况。此指标的值与任务调度日志页面中显示的“读端实时监控”是一致的。 |
≥0 单位:毫秒 |
任务 |
1分钟 |
cdc_submitted_transaction_delay |
CDC已提交最新事务的时延 |
统计CDC任务(组合任务)当前已经提交的最新事务对应时间距离实时的时间差。此指标主要针对Oracle类型任务,MySQL类型可忽略。 CDC已经处理结束、成功同步到目标端的最新的那个事务时间与当前时间的时间差,此指标比较真实的反映了数据写入的实际延迟,根据项目实际业务数据量配置延迟,建议配置 >= 3600 (1小时)。 |
≥0 单位:毫秒 |
任务 |
1分钟 |
cdc_big_transaction_count |
CDC超大事务个数 |
统计CDC任务读取到的超大事务的个数。此指标主要针对Oracle类型任务,MySQL类型可忽略。 如果一个事务的数据量超过了10W,可认定此事务为超大事务,此指标统计上一统计周期内(5分钟)出现超大事务的数量,根据业务实际情况,如果认为实际业务不应该存在超过10W 数据量的事务,则可以配置 >= 1。 |
≥0 单位:个 |
任务 |
5分钟 |
cdc_expired_transaction_count |
CDC超时事务个数 |
统计CDC任务读取到的超时事务的个数。 |
≥0 单位:个 |
任务 |
1分钟 |
APIC支持的监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
data_api_request_count |
Data API调用次数 |
统计Data API调用次数。 |
≥0 |
实例 |
1分钟 |
data_api_max_latency |
Data API最大延迟毫秒数 |
统计Data API最大响应延时时间。 |
≥0 单位:毫秒 |
实例 |
1分钟 |
data_api_avg_latency |
Data API平均延迟毫秒数 |
统计Data API平均响应延时时间。 |
≥0 单位:毫秒 |
实例 |
1分钟 |
data_api_errors |
Data API错误次数 |
统计Data API错误次数。 |
≥0 |
实例 |
1分钟 |
func_api_request_count |
Function API调用次数 |
统计Function API调用次数。 |
≥0 |
实例 |
1分钟 |
func_api_max_latency |
Function API最大延迟毫秒数 |
统计Function API最大响应延时时间。 |
≥0 单位:毫秒 |
实例 |
1分钟 |
func_api_avg_latency |
Function API平均延迟毫秒数 |
统计Function API平均响应延时时间。 |
≥0 单位:毫秒 |
实例 |
1分钟 |
func_api_errors |
Function API错误次数 |
统计Function API错误次数。 |
≥0 |
实例 |
1分钟 |
requests |
接口调用次数 |
统计测量api接口被调用的次数。 |
≥0 |
实例 |
1分钟 |
error_4xx |
4xx 异常次数 |
统计测量api接口返回4xx错误的次数。 |
≥0 |
实例 |
1分钟 |
error_5xx |
5xx 异常次数 |
统计测量api接口返回5xx错误的次数。 |
≥0 |
实例 |
1分钟 |
throttled_calls |
被流控的调用次数 |
统计测量api被流控的调用次数。 |
≥0 |
实例 |
1分钟 |
avg_latency |
平均延迟毫秒数 |
统计测量api接口平均响应延时时间。 |
≥0 |
实例 |
1分钟 |
max_latency |
最大延迟毫秒数 |
统计测量api接口最大响应延时时间。 |
≥0 单位:毫秒 |
实例 |
1分钟 |
req_count |
接口调用次数 |
统计测量api接口调用次数。 |
≥0 |
单个API |
1分钟 |
req_count_2xx |
2xx调用次数 |
统计测量api接口调用2xx的次数。 |
≥0 |
单个API |
1分钟 |
req_count_4xx |
4xx异常次数 |
统计测量api接口返回4xx错误的次数。 |
≥0 |
单个API |
1分钟 |
req_count_5xx |
5xx异常次数 |
统计测量api接口返回5xx错误的次数。 |
≥0 |
单个API |
1分钟 |
req_count_error |
异常次数 |
统计测量api接口总的错误次数。 |
≥0 |
单个API |
1分钟 |
avg_latency |
平均延迟毫秒数 |
统计测量api接口平均响应延时时间。 |
≥0 单位:毫秒 |
单个API |
1分钟 |
max_latency |
最大延迟毫秒数 |
统计测量api接口最大响应延时时间。 |
≥0 单位:毫秒 |
单个API |
1分钟 |
input_throughput |
流入流量 |
统计测量api接口请求流量。 |
≥0 单位:Byte/KB/MB/GB/TB/PB |
单个API |
1分钟 |
output_throughput |
流出流量 |
统计测量api接口返回流量。 |
≥0 单位:Byte/KB/MB/GB/TB/PB |
单个API |
1分钟 |
MQS支持的监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
current_partitions |
分区数 |
统计实例中已经使用的分区数量。 |
≥0 单位:个 |
实例 |
1分钟 |
current_topics |
主题数 |
统计实例中已经创建的主题数量。 |
≥0 单位:个 |
实例 |
1分钟 |
group_msgs |
堆积消息数 |
统计实例中所有消费组中总堆积消息数。 |
≥0 单位:个 |
实例 |
1分钟 |
broker_data_size |
节点数据容量 |
统计节点当前的消息数据大小。 |
≥0 单位:Byte/KB/MB/GB/TB/PB |
节点 |
1分钟 |
broker_messages_in_rate |
消息生产速率 |
统计每秒生产的消息数量。 |
≥0 单位:个/秒 |
节点 |
1分钟 |
broker_bytes_out_rate |
消费流量 |
统计每秒消费的字节数。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
broker_bytes_in_rate |
生产流量 |
统计每秒生产的字节数。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
broker_public_bytes_in_rate |
公网入流量 |
统计Broker节点每秒公网访问流入流量。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
broker_public_bytes_out_rate |
公网出流量 |
统计Broker节点每秒公网访问流出流量。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
broker_fetch_mean |
生产请求平均处理时长 |
统计Broker节点处理生产请求平均时长。 |
≥0 单位:毫秒 |
节点 |
1分钟 |
broker_produce_mean |
消费请求平均处理时长 |
统计Broker节点处理消费请求平均时长。 |
≥0 单位:毫秒 |
节点 |
1分钟 |
broker_alive |
节点存活状态 |
统计MQS节点是否存活。 |
≥0 |
节点 |
1分钟 |
broker_connections |
连接数 |
统计MQS节点当前所有TCP连接数量。 |
≥0 单位:个 |
节点 |
1分钟 |
broker_cpu_usage |
CPU使用率 |
统计MQS节点虚拟机的CPU使用率。 |
≥0 单位:百分比 |
节点 |
1分钟 |
broker_disk_read_await |
磁盘平均读操作耗时 |
统计磁盘在测量周期内平均每个读IO的操作时长。 |
≥0 单位:毫秒 |
节点 |
1分钟 |
broker_disk_write_await |
磁盘平均写操作耗时 |
统计磁盘在测量周期内平均每个写IO的操作时长。 |
≥0 单位:毫秒 |
节点 |
1分钟 |
broker_total_bytes_in_rate |
网络入流量 |
统计MQS节点每秒网络访问流入流量。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
broker_total_bytes_out_rate |
网络出流量 |
统计MQS节点每秒网络访问流出流量。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
broker_cpu_core_load |
CPU核均负载 |
统计MQS节点虚拟机CPU每个核的平均负载。 |
≥0 |
节点 |
1分钟 |
broker_disk_usage |
磁盘容量使用率 |
统计MQS节点虚拟机的磁盘容量使用率。 |
≥0 单位:百分比 |
节点 |
1分钟 |
broker_memory_usage |
内存使用率 |
统计MQS节点虚拟机的内存使用率。 |
≥0 单位:百分比 |
节点 |
1分钟 |
broker_heap_usage |
Kafka进程JVM堆内存使用率 |
统计MQS节点Kafka进程JVM中的堆内存使用率。 |
≥0 单位:百分比 |
节点 |
1分钟 |
produced_messages |
生产消息数 |
统计Rest节点每分钟生产消息数。 |
≥0 单位:个 |
节点 |
1分钟 |
topic_bytes_in_rate |
生产流量 |
统计Rest每秒钟生产流量。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
topic_bytes_out_rate |
消费流量 |
统计Rest每秒钟消费流量。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
节点 |
1分钟 |
topic_messages_in_rate |
消息生产速率 |
统计每秒生产的消息数量。 |
≥0 单位:个/秒 |
队列 |
1分钟 |
topic_bytes_out_rate |
消费流量 |
统计每秒消费的字节数。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
队列 |
1分钟 |
topic_bytes_in_rate |
生产流量 |
统计每秒生产的字节数。 |
≥0 单位:Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s |
队列 |
1分钟 |
topic_messages |
队列消息总数 |
统计队列当前的消息总数。 |
≥0 单位:个 |
队列 |
1分钟 |
produced_messages |
生产消息数 |
统计目前生产的消息总数。 |
≥0 单位:个 |
队列 |
1分钟 |
partition_messages |
分区消息数 |
统计分区中当前的消息个数。 |
≥0 单位:个 |
队列 |
1分钟 |
messages_consumed |
分区已消费消息数 |
统计当前消费组已经消费的消息个数。 |
≥0 单位:个 |
消费组 |
1分钟 |
messages_remained |
分区可消费消息数 |
统计消费组可消费的消息个数。 |
≥0 单位:个 |
消费组 |
1分钟 |
topic_messages_remained |
队列可消费消息数 |
统计消费组指定队列可以消费的消息个数。 |
≥0 单位:个 |
消费组 |
1分钟 |
topic_messages_consumed |
队列已消费消息数 |
统计消费组指定队列当前已经消费的消息数。 |
≥0 单位:个 |
消费组 |
1分钟 |
consumer_messages_remained |
消费组可消费消息数 |
统计消费组剩余可以消费的消息个数。 |
≥0 单位:个 |
消费组 |
1分钟 |
consumer_messages_consumed |
消费组已消费消息数 |
统计消费组当前已经消费的消息数。 |
≥0 单位:个 |
消费组 |
1分钟 |
LINK支持的监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
online_connections |
在线设备数 |
该指标用于统计用户在线设备的连接数。 |
≥0 单位:个 |
实例 |
1分钟 |
msg_count |
消息总数 |
该指标用于统计用户所有设备发送的消息总数。 |
≥0 单位:个 |
实例 |
1分钟 |
msg_tps |
TPS |
该指标用于统计时间区间内设备每秒发送消息数。 |
≥0 单位:次/秒 |
实例 |
1分钟 |
msg_max_latency |
发送消息最大时延 |
该指标用于统计时间区间内设备发送消息延迟毫秒数。 |
≥0 单位:毫秒 |
实例 |
1分钟 |
维度
Key |
Value |
---|---|
instance_id |
ROMA Connect实例 |
fdi |
数据集成 |
apic |
服务集成 |
kafka_instance_id |
消息集成实例 |
kafka_broker |
消息集成Broker节点 |
kafka_rest |
消息集成Rest节点 |
kafka_topics |
消息集成队列 |
kafka_partitions |
消息集成分区 |
kafka_groups-partitions |
消息集成分区的消费组 |
kafka_groups_topics |
消息集成队列的消费组 |
kafka_groups |
消息集成消费组 |
link |
设备集成 |