查看ROMA Connect监控指标
功能说明
云监控服务最大支持4个层级维度,维度编号从0开始,编号3为最深层级。例如监控指标中的维度信息为“kafka_instance_id,kafka_broker”时,表示对应的监控指标的维度存在层级关系,且“kafka_instance_id”为0层,“kafka_broker”为1层。
命名空间
SYS.ROMA
FDI支持的监控指标
| 指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
| active_task_count | 活跃任务数 | 统计此实例下当前处于运行状态任务总数。 如果项目已经进入稳定运行阶段,运行的任务数相对固定,希望在发生因异常情况导致任务停止时能第一时间告警,可以配置此指标监控。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 5分钟 |
| task_count | 总任务数 | 统计此实例下当前存在的FDI任务总数,不区分运行状态。 如果项目已经进入稳定运行阶段,任务数相对固定,不会频繁的增删任务时,希望在发生误删除任务的情况时能第一时间告警,可以配置此指标监控。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 5分钟 |
| data_size | 数据大小 | 统计上一个统计周期内,此实例下所有任务累计写入数据的总大小。 如果希望写入的数据大小超过或低于某个阈值时触发告警,可以配置此指标监控。 | ≥0 | Byte/KB/MB/GB/TB/PB | 1024(IEC) | 实例(instance_id) | 5分钟 |
| data_count | 数据条数 | 统计上一个统计周期内,此实例下所有任务累计写入数据的总条数。 如果希望写入的数据条数超过或低于某个阈值时触发告警,可以配置此指标监控。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 5分钟 |
| success_task_count | 成功任务数 | 统计上一个统计周期内,此实例下所有任务累计执行成功的次数。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 5分钟 |
| fail_task_count | 失败任务数 | 统计上一个统计周期内,此实例下所有任务累计执行失败的次数。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 5分钟 |
| task_fail_count | 执行失败次数 | 统计上个统计周期内,此任务执行出错的次数。 | ≥0 | times | 不涉及 | 任务(instance_id,task_id) | 5分钟 |
| cdc_unsubmitted_transaction_delay | CDC未提交最早事务的时延 | 统计CDC任务(组合任务)当前在处理的还未提交的最早事务对应时间距离实时的时间差。 对于MySQL类型的CDC任务,此指标表示任务正在读取的Binlog日志对应的时间与当前系统时间的差值,代表了实时读取的延迟情况。此指标的值与任务调度日志页面中显示的“读端实时监控”是一致的。 | ≥0 | seconds | 不涉及 | 任务(instance_id,task_id) | 1分钟 |
| cdc_submitted_transaction_delay | CDC已提交最新事务的时延 | 统计CDC任务(组合任务)当前已经提交的最新事务对应时间距离实时的时间差。此指标主要针对Oracle类型任务,MySQL类型可忽略。 CDC已经处理结束、成功同步到目标端的最新的那个事务时间与当前时间的时间差,此指标比较真实的反映了数据写入的实际延迟,根据项目实际业务数据量配置延迟,建议配置 >= 3600 (1小时)。 | ≥0 | seconds | 不涉及 | 任务(instance_id,task_id) | 1分钟 |
| cdc_big_transaction_count | CDC超大事务个数 | 统计CDC任务读取到的超大事务的个数。此指标主要针对Oracle类型任务,MySQL类型可忽略。 如果一个事务的数据量超过了10W,可认定此事务为超大事务,此指标统计上一统计周期内(5分钟)出现超大事务的数量,根据业务实际情况,如果认为实际业务不应该存在超过10W 数据量的事务,则可以配置 >= 1。 | ≥0 | Count | 不涉及 | 任务(instance_id,task_id) | 5分钟 |
| cdc_expired_transaction_count | CDC超时事务个数 | 统计CDC任务读取到的超时事务的个数。 | ≥0 | Count | 不涉及 | 任务(instance_id,task_id) | 1分钟 |
APIC支持的监控指标
| 指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
| data_api_request_count | Data API调用次数 | 统计Data API调用次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| data_api_max_latency | Data API最大延迟毫秒数 | 统计Data API最大响应延时时间。 | ≥0 | ms | 不涉及 | 实例(instance_id) | 1分钟 |
| data_api_avg_latency | Data API平均延迟毫秒数 | 统计Data API平均响应延时时间。 | ≥0 | ms | 不涉及 | 实例(instance_id) | 1分钟 |
| data_api_errors | Data API错误次数 | 统计Data API错误次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| func_api_request_count | Function API调用次数 | 统计Function API调用次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| func_api_max_latency | Function API最大延迟毫秒数 | 统计Function API最大响应延时时间。 | ≥0 | ms | 不涉及 | 实例(instance_id) | 1分钟 |
| func_api_avg_latency | Function API平均延迟毫秒数 | 统计Function API平均响应延时时间。 | ≥0 | ms | 不涉及 | 实例(instance_id) | 1分钟 |
| func_api_errors | Function API错误次数 | 统计Function API错误次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| requests | 接口调用次数 | 统计测量api接口被调用的次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| error_4xx | 4xx 异常次数 | 统计测量api接口返回4xx错误的次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| error_5xx | 5xx 异常次数 | 统计测量api接口返回5xx错误的次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| throttled_calls | 被流控的调用次数 | 统计测量api被流控的调用次数。 | ≥0 | Times/min | 不涉及 | 实例(instance_id) | 1分钟 |
| avg_latency | 平均延迟毫秒数 | 统计测量api接口平均响应延时时间。 | ≥0 | ms | 不涉及 | 实例(instance_id) | 1分钟 |
| max_latency | 最大延迟毫秒数 | 统计测量api接口最大响应延时时间。 | ≥0 | ms | 不涉及 | 实例(instance_id) | 1分钟 |
| req_count | 接口调用次数 | 统计测量api接口调用次数。 | ≥0 | Times/min | 不涉及 | 单个API(instance_id,api_id) | 1分钟 |
| req_count_2xx | 2xx调用次数 | 统计测量api接口调用2xx的次数。 | ≥0 | Times/min | 不涉及 | 单个API(instance_id,api_id) | 1分钟 |
| req_count_4xx | 4xx异常次数 | 统计测量api接口返回4xx错误的次数。 | ≥0 | Times/min | 不涉及 | 单个API(instance_id,api_id) | 1分钟 |
| req_count_5xx | 5xx异常次数 | 统计测量api接口返回5xx错误的次数。 | ≥0 | Times/min | 不涉及 | 单个API(instance_id,api_id) | 1分钟 |
| req_count_error | 异常次数 | 统计测量api接口总的错误次数。 | ≥0 | Times/min | 不涉及 | 单个API(instance_id,api_id) | 1分钟 |
| avg_latency | 平均延迟毫秒数 | 统计测量api接口平均响应延时时间。 | ≥0 | ms | 不涉及 | 单个API(instance_id,api_id) | 1分钟 |
| max_latency | 最大延迟毫秒数 | 统计测量api接口最大响应延时时间。 | ≥0 | ms | 不涉及 | 单个API(instance_id,api_id) | 1分钟 |
| input_throughput | 流入流量 | 统计测量api接口请求流量。 | ≥0 | Byte/KB/MB/GB/TB/PB | 1024(IEC) | 单个API(instance_id,api_id) | 1分钟 |
| output_throughput | 流出流量 | 统计测量api接口返回流量。 | ≥0 | Byte/KB/MB/GB/TB/PB | 1024(IEC) | 单个API(instance_id,api_id) | 1分钟 |
MQS支持的监控指标
| 指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
| current_partitions | 分区数 | 统计实例中已经使用的分区数量。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 1分钟 |
| current_topics | 主题数 | 统计实例中已经创建的主题数量。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 1分钟 |
| group_msgs | 堆积消息数 | 统计实例中所有消费组中总堆积消息数。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 1分钟 |
| broker_data_size | 节点数据容量 | 统计节点当前的消息数据大小。 | ≥0 | Byte/KB/MB/GB/TB/PB | 1024(IEC) | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_messages_in_rate | 消息生产速率 | 统计每秒生产的消息数量。 | ≥0 | Count/s | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_bytes_out_rate | 消费流量 | 统计每秒消费的字节数。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_bytes_in_rate | 生产流量 | 统计每秒生产的字节数。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_public_bytes_in_rate | 公网入流量 | 统计Broker节点每秒公网访问流入流量。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_public_bytes_out_rate | 公网出流量 | 统计Broker节点每秒公网访问流出流量。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_fetch_mean | 生产请求平均处理时长 | 统计Broker节点处理生产请求平均时长。 | ≥0 | ms | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_produce_mean | 消费请求平均处理时长 | 统计Broker节点处理消费请求平均时长。 | ≥0 | ms | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_alive | 节点存活状态 | 统计MQS节点是否存活。 | ≥0 | - | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_connections | 连接数 | 统计MQS节点当前所有TCP连接数量。 | ≥0 | Count | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_cpu_usage | CPU使用率 | 统计MQS节点虚拟机的CPU使用率。 | ≥0 | % | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_disk_read_await | 磁盘平均读操作耗时 | 统计磁盘在测量周期内平均每个读IO的操作时长。 | ≥0 | ms | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_disk_write_await | 磁盘平均写操作耗时 | 统计磁盘在测量周期内平均每个写IO的操作时长。 | ≥0 | ms | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_total_bytes_in_rate | 网络入流量 | 统计MQS节点每秒网络访问流入流量。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_total_bytes_out_rate | 网络出流量 | 统计MQS节点每秒网络访问流出流量。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_cpu_core_load | CPU核均负载 | 统计MQS节点虚拟机CPU每个核的平均负载。 | ≥0 | - | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_disk_usage | 磁盘容量使用率 | 统计MQS节点虚拟机的磁盘容量使用率。 | ≥0 | % | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_memory_usage | 内存使用率 | 统计MQS节点虚拟机的内存使用率。 | ≥0 | % | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| broker_heap_usage | Kafka进程JVM堆内存使用率 | 统计MQS节点Kafka进程JVM中的堆内存使用率。 | ≥0 | % | 不涉及 | 节点(kafka_instance_id,kafka_broker) | 1分钟 |
| produced_messages | 生产消息数 | 统计Rest节点每分钟生产消息数。 | ≥0 | Count | 不涉及 | 节点(kafka_instance_id,kafka_rest) | 1分钟 |
| topic_bytes_in_rate | 生产流量 | 统计Rest每秒钟生产流量。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点 (kafka_instance_id,kafka_rest) | 1分钟 |
| topic_bytes_out_rate | 消费流量 | 统计Rest每秒钟消费流量。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 节点 (kafka_instance_id,kafka_rest) | 1分钟 |
| topic_messages_in_rate | 消息生产速率 | 统计每秒生产的消息数量。 | ≥0 | Count/s | 不涉及 | 队列(kafka_instance_id,kafka_topics) | 1分钟 |
| topic_bytes_out_rate | 消费流量 | 统计每秒消费的字节数。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 队列(kafka_instance_id,kafka_topics) | 1分钟 |
| topic_bytes_in_rate | 生产流量 | 统计每秒生产的字节数。 | ≥0 | Byte/s、KB/s、MB/s、GB/s、TB/s、PB/s | 1024(IEC) | 队列(kafka_instance_id,kafka_topics) | 1分钟 |
| topic_messages | 队列消息总数 | 统计队列当前的消息总数。 | ≥0 | Count | 不涉及 | 队列(kafka_instance_id,kafka_topics) | 1分钟 |
| produced_messages | 生产消息数 | 统计目前生产的消息总数。 | ≥0 | Count | 不涉及 | 队列(kafka_instance_id,kafka_topics) | 1分钟 |
| partition_messages | 分区消息数 | 统计分区中当前的消息个数。 | ≥0 | Count | 不涉及 | 队列(kafka_instance_id,kafka_topics) | 1分钟 |
| messages_consumed | 分区已消费消息数 | 统计当前消费组已经消费的消息个数。 | ≥0 | Count | 不涉及 | 消费组(kafka_instance_id,kafka_groups,kafka_groups_topics,kafka_groups_partitions) | 1分钟 |
| messages_remained | 分区可消费消息数 | 统计消费组可消费的消息个数。 | ≥0 | Count | 不涉及 | 消费组(kafka_instance_id,kafka_groups,kafka_groups_topics,kafka_groups_partitions) | 1分钟 |
| topic_messages_remained | 队列可消费消息数 | 统计消费组指定队列可以消费的消息个数。 | ≥0 | Count | 不涉及 | 消费组(kafka_instance_id,kafka_groups,kafka_groups_topics) | 1分钟 |
| topic_messages_consumed | 队列已消费消息数 | 统计消费组指定队列当前已经消费的消息数。 | ≥0 | Count | 不涉及 | 消费组(kafka_instance_id,kafka_groups,kafka_groups_topics) | 1分钟 |
| consumer_messages_remained | 消费组可消费消息数 | 统计消费组剩余可以消费的消息个数。 | ≥0 | Count | 不涉及 | 消费组(kafka_instance_id,kafka_groups) | 1分钟 |
| consumer_messages_consumed | 消费组已消费消息数 | 统计消费组当前已经消费的消息数。 | ≥0 | Count | 不涉及 | 消费组(kafka_instance_id,kafka_groups) | 1分钟 |
LINK支持的监控指标
| 指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
| online_connections | 在线设备数 | 该指标用于统计用户在线设备的连接数。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 1分钟 |
| msg_count | 消息总数 | 该指标用于统计用户所有设备发送的消息总数。 | ≥0 | Count | 不涉及 | 实例(instance_id) | 1分钟 |
| msg_tps | TPS | 该指标用于统计时间区间内设备每秒发送消息数。 | ≥0 | Times/s | 不涉及 | 实例(instance_id) | 1分钟 |
| msg_max_latency | 发送消息最大时延 | 该指标用于统计时间区间内设备发送消息延迟毫秒数。 | ≥0 | ms | 不涉及 | 实例(instance_id) | 1分钟 |
对于有多层测量维度的测量对象,使用接口查询监控指标时,需要代入具体指标的维度层级关系。
例如,需要查询Kafka节点的磁盘容量使用率(broker_disk_usage),该指标的维度信息为“kafka_instance_id,kafka_broker”,表示kafka_instance_id为0层,kafka_broker为1层。
维度
| Key | Value |
|---|---|
| instance_id | ROMA Connect实例ID,例如2a1bc2b7-0c42-xxxx-xxxx-97dd84fa13d6。 该取值的获取方式为:调用查询实例列表API,从接口返回的响应参数中提取。 |
| task_id | 数据集成任务ID,例如:e5bdxxxxa59b4b1f94f7e73f598d319f。 该取值的获取方式为:调用查询任务列表API,从接口返回的响应参数中提取。 |
| apic_id | 单个API的ID,例如:a5d6xxxx60b84f179ffe0b3101f542ee。 该取值的获取方式为:调用查询API列表API,从接口返回的响应参数中提取。 |
| kafka_instance_id | 消息集成实例,例如:6a0df74a-fxxx-497bfdda6c8e。 该取值的获取方式为:调用查询MQS实例列表API,从接口返回的响应参数中提取。 |
| kafka_broker | 消息集成Broker节点,节点编号从0开始递增。例如3个节点的实例,节点为:broker-0,broker-1,broker-2。 该取值的获取方式为:调用查询MQS实例列表API,从接口返回的响应参数中提取。 |
| kafka_rest | 消息集成Rest节点,例如:rest-01。 该取值的获取方式为:调用查询MQS实例列表API,从接口返回的响应参数中提取。 |
| kafka_topics | 消息集成队列,例如:topic-01。 该取值的获取方式为:调用查询Topic列表API,从接口返回的响应参数中提取。 |
| kafka_partitions | 消息集成分区,例如:0。 该取值的获取方式为:调用查询Topic列表API,从接口返回的响应参数中提取。 |
| kafka_groups-partitions | 消息集成分区的消费组,例如:0。 该取值的获取方式为:调用查询指定消费组信息API,从接口返回的响应参数中提取。 |
| kafka_groups_topics | 消息集成队列的消费组,例如:topic-01。 该取值的获取方式为:调用查询指定消费组信息API,从接口返回的响应参数中提取。 |
| kafka_groups | 消息集成消费组,例如:group-01。 该取值的获取方式为:调用查询指定消费组信息API,从接口返回的响应参数中提取。 |