Doris集群监控指标说明
功能说明
监控是保持CloudTable服务可靠性、可用性和性能的重要部分,通过监控,用户可以观察CloudTable服务器的运行状态。本章节定义了表格存储服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。
命名空间
SYS.CloudTable/Service.CloudTable
FE节点支持的监控指标
FE节点监控指标如表1所示。
指标名称 | 显示名称 | 含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) | 命名空间 |
|---|---|---|---|---|---|---|---|---|
cmdProcessMem | 内存使用率 | 统计测量对象的内存使用率。 | 0 ~100 | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
cmdProcessCPU | CPU使用率 | 统计测量对象的CPU使用率。 | 0 ~100 | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
cmdForUsedStorageRate | 已用存储空间比率 | 统计测量对象所在集群的已用存储空间大小占总配额的比率。 | 0 ~100 | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_image_clean_failed | 清理历史元数据镜像文件失败的次数 | 不应失败,如失败,需人工介入 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_image_clean_success | 清理历史元数据镜像文件成功的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_image_push_success | 将元数据镜像文件推送给其他FE节点的成功的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_image_write_failed | 生成元数据镜像文件失败的次数 | 不应失败,如失败,需人工介入 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_image_write_success | 生成元数据镜像文件成功的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_max_journal_id | 当前FE节点最大元数据日志ID | 如果是Master FE,则是当前写入的最大ID,如果是非Master FE,则代表当前回放的元数据日志最大ID;用于观察多个FE之间的id是否差距过大,过大则表示元数据同步出现问题。 | ≥0 | 不涉及 | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_max_tablet_compaction_score | 所有BE节点中最大的compaction score值 | 该值可以观测当前集群最大的compaction score,以判断是否过高,如过高则可能出现查询或写入延迟。 | ≥0 | 不涉及 | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_qps | 当前FE每秒查询数量(仅统计查询请求) | QPS | ≥0 | Count/s | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_query_err | 错误查询的累积值 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_query_err_rate | 每秒错误查询数 | - | ≥0 | Count/s | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_query_latency_ms_99 | 查询请求延迟的99分位的查询延迟 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_query_latency_ms_999 | 查询请求延迟的999分位的查询延迟 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_query_olap_table | 查询内部表(OlapTable)的请求个数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_query_total | 所有查询请求数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_report_queue_size | BE的各种定期汇报任务在FE端的队列长度 | 该值反映了汇报任务在 Master FE节点上的阻塞程度,数值越大,表示FE处理能力不足。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_request_total | 所有通过MySQL端口接收的操作请求(包括查询和其他语句) | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_routine_load_error_rows | 集群内所有Routine Load作业的错误行数总和 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_routine_load_receive_bytes | 集群内所有Routine Load作业接收的数据量大小 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_routine_load_rows | 集群内所有Routine Load作业接收的数据行数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_rps | 当前FE每秒请求数量(包含查询以及其他各类语句) | 和QPS配合来查看集群处理请求的量。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_scheduled_tablet_num | Master FE节点正在调度的tablet数量 | 包括正在修复的副本和正在均衡的副本;该数值可以反映当前集群,正在迁移的tablet数量;如果长时间有值,说明集群不稳定。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_tablet_status_count_added | Master FE节点被调度过的tablet数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_tablet_status_count_in_sched | Master FE节点被重复调度的tablet数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_tablet_status_count_not_ready | Master FE节点未满足调度触发条件的tablet数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_tablet_status_count_total | Master FE节点的被检查过的tablet数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_tablet_status_count_unhealthy | Master FE节点累积的被检查过的不健康的tablet数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_counter_begin | 提交的事务数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_counter_failed | 失败的事务数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_counter_reject | 被拒绝的事务数量 | 如当前运行事务数大于阈值,则新的事务会被拒绝。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_counter_success | 成功的事务数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_exec_latency_ms_99 | 99分位的事务执行耗时 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_exec_latency_ms_999 | 999分位的事务执行耗时 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_publish_latency_ms_99 | 99分位的事务publish耗时 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_txn_publish_latency_ms_999 | 999分位的事务publish耗时 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_heap_size_bytes_max | 最大堆内存 | 观测JVM内存使用情况。 | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_heap_size_bytes_committed | 已申请的堆内存 | 观测JVM内存使用情况。 | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_heap_size_bytes_used | 已使用的堆内存 | 观测JVM内存使用情况。 | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_non_heap_size_bytes_committed | 已申请的堆外内存 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_non_heap_size_bytes_used | 已使用堆外内存 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_old_gc_count | 老年代GC次数 | 观测是否出现长时间的FullGC。 说明: “老年代GC次数”指标仅支持Doris 2.1.6及以下版本。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_old_gc_time | 老年代GC耗时 | 观测是否出现长时间的FullGC。 说明: “老年代GC耗时”指标仅支持Doris 2.1.6及以下版本。 | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_old_size_bytes_used | 老年代内存占用 | 说明: “老年代内存占用”指标仅支持Doris 2.1.6及以下版本。 - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_old_size_bytes_peak_used | 老年代内存占用峰值 | 说明: “老年代内存占用峰值”指标仅支持Doris 2.1.6及以下版本。 - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_old_size_bytes_max | 老年代内存最大值 | 说明: “老年代内存最大值”指标仅支持Doris 2.1.6及以下版本。 - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_thread_new_count | 线程数峰值 | 观测JVM线程数是否合理。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_thread_new_count | new状态的线程数 | 观测JVM线程数是否合理。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_thread_runnable_count | runnable状态的线程数 | 观测JVM线程数是否合理。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_thread_blocked_count | blocked状态的线程数 | 观测JVM线程数是否合理。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_thread_waiting_count | waiting状态的线程数 | 观测JVM线程数是否合理。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_thread_terminated_count | terminated状态的线程数 | 观测JVM线程数是否合理。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_young_gc_count | 新生代GC次数 | 累计值 说明: “新生代GC次数”指标仅支持Doris 2.1.6及以下版本。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_young_gc_time | 新生代GC耗时 | 累计值 说明: “新生代GC耗时”指标仅支持Doris 2.1.6及以下版本。 | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_young_size_bytes_used | 新生代内存占用 | 说明: “新生代内存占用”指标仅支持Doris 2.1.6及以下版本。 - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_young_size_bytes_peak_used | 新生代内存占用峰值 | 说明: “新生代内存占用峰值”指标仅支持Doris 2.1.6及以下版本。 - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
jvm_young_size_bytes_max | 新生代内存最大值 | 说明: “新生代内存最大值”指标仅支持Doris 2.1.6及以下版本。 - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_cache_added_partition | 新增的Partition Cache数量 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_cache_added_sql | 新增的SQL Cache数量 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_cache_hit_partition | 命中Partition Cache数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_cache_hit_sql | 命中SQL Cache数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_connection_total | 当前FE的MySQL端口连接数 | 用于监控查询连接数。如果连接数超限,则新的连接将无法接入 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_counter_hit_sql_block_rule | 被SQL BLOCK RULE拦截的查询数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_edit_log_clean_failed | 清理历史元数据日志失败的次数 | 不应失败,如失败,需人工介入。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_edit_log_clean_success | 清理历史元数据日志成功的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_edit_log_read | 元数据日志读取次数的计数 | 通过斜率观察元数据读取频率是否正常。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_edit_log_write | 元数据日志写入次数的计数 | 通过斜率观察元数据读取频率是否正常。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_fe_image_push_failed | 将元数据镜像文件推送给其他FE节点的失败的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
指标名称 | 显示名称 | 含义 | 取值范围 | 测量对象(维度) | 监控周期(原始指标) | 命名空间 |
|---|---|---|---|---|---|---|
doris_fe_thrift_rpc_total_{method_name} | doris_fe_thrift_rpc_total_{method_name} | FE thrift接口各个方法接收的RPC请求次数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thrift_rpc_latency_ms_{method_name} | doris_fe_thrift_rpc_latency_ms_{method_name} | FE thrift接口各个方法接收的RPC请求耗时 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_thrift_server_pool_active_thread_num | doris_fe_thread_pool_thrift_server_pool_active_thread_num | 线程池thrift-server-pool正在执行的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_thrift_server_pool_active_thread_pct | doris_fe_thread_pool_thrift_server_pool_active_thread_pct | 线程池thrift-server-pool正在执行的任务数占最大线程数的百分比 | [0,100] | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_thrift_server_pool_task_in_queue | doris_fe_thread_pool_thrift_server_pool_task_in_queue | 线程池thrift-server-pool正在排队的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_thrift_server_pool_task_rejected | doris_fe_thread_pool_thrift_server_pool_task_rejected | 线程池thrift-server-pool拒绝的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_mysql_nio_pool_active_thread_num | doris_fe_thread_pool_mysql_nio_pool_active_thread_num | 线程池mysql-nio-pool正在执行的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_mysql_nio_pool_active_thread_pct | doris_fe_thread_pool_mysql_nio_pool_active_thread_pct | 线程池mysql-nio-pool正在执行的任务数占最大线程数的百分比 | [0,10] | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_mysql_nio_pool_task_in_queue | doris_fe_thread_pool_mysql_nio_pool_task_in_queue | 线程池mysql-nio-pool正在排队的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_mysql_nio_pool_task_rejected | doris_fe_thread_pool_mysql_nio_pool_task_rejected | 线程池mysql-nio-pool拒绝的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_connect_scheduler_pool_active_thread_num | doris_fe_thread_pool_connect_scheduler_pool_active_thread_num | 线程池connect-scheduler-pool正在执行的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_connect_scheduler_pool_active_thread_pct | doris_fe_thread_pool_connect_scheduler_pool_active_thread_pct | 线程池connect-scheduler-pool正在执行的任务数占最大线程数的百分比 | [0,100] | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_connect_scheduler_pool_task_in_queue | doris_fe_thread_pool_connect_scheduler_pool_task_in_queue | 线程池connect-scheduler-pool正在排队的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
doris_fe_thread_pool_connect_scheduler_pool_task_rejected | doris_fe_thread_pool_connect_scheduler_pool_task_rejected | 线程池connect-scheduler-pool拒绝的任务数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
BE节点支持的监控指标
BE节点监控指标如表3所示。
指标名称 | 显示名称 | 含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) | 命名空间 |
|---|---|---|---|---|---|---|---|---|
doris_be_active_scan_context_count | 由外部直接打开的scanner的个数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_add_batch_task_queue_size | 接收batch的线程池的队列大小 | - | ≥0 | 不涉及 | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
cmdForUsedStorageRate | 已用存储空间比率 | 统计测量对象所在集群的已用存储空间大小占总配额的比率。 | 0 ~100 | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_brpc_endpoint_stub_count | 已创建的brpc stub的数量(BE) | 这些stub用于BE之间的交互 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_brpc_function_endpoint_stub_count | 已创建的brpc stub的数量(Remote RPC) | 这些stub用于和Remote RPC之间交互 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_usage_LastestSuccessChannelCache | LRU ChannelCache使用率 | LRU DataPageCache使用率 | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_usage_ratio_DataPageCache | LRU DataPageCache使用率 | - | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_usage_ratio_IndexPageCache | LRU IndexPageCache使用率 | - | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_usage_ratio_SegmentCache | LRU SegmentCache使用率 | - | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_hit_ratio_DataPageCache | LRU DataPageCache命中率 | 数据Cache,直接影响查询效率 | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_hit_ratio_IndexPageCache | LRU IndexPageCache命中率 | 索引Cache,直接影响查询效率 | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_hit_ratio_LastestSuccessChannelCache | LRU ChannelCache命中率 | - | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_cache_hit_ratio_SegmentCache | LRU SegmentCache命中率 | - | [0,100] | % | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_chunk_pool_local_core_alloc_count | ChunkAllocator中,从绑定的core的内存队列中分配内存的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_chunk_pool_other_core_alloc_count | ChunkAllocator中,从其他的core的内存队列中分配内存的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_chunk_pool_reserved_bytes | ChunkAllocator中预留的内存大小 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_chunk_pool_system_alloc_cost_ns | SystemAllocator申请内存的耗时 | 累计值通过斜率可以观测内存分配的耗时 | ≥0 | ns | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_chunk_pool_system_alloc_count | SystemAllocator申请内存的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_chunk_pool_system_free_cost_ns | SystemAllocator释放内存的耗时累计值 | 通过斜率可以观测内存释放的耗时 | ≥0 | ns | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_chunk_pool_system_free_count | SystemAllocator释放内存的次数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_compaction_bytes_total_base | Base Compaction的数据量 | 累计值 | ≥0 | Byte | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_compaction_bytes_total_cumulative | Cumulative Compaction的数据量 | 累计值 | ≥0 | Byte | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_compaction_deltas_total_base | Base Compaction处理的rowset个数 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_compaction_deltas_total_cumulative | Cumulative Compaction处理的rowset个数 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_compaction_waitting_permits | 正在等待Compaction令牌的数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_data_stream_receiver_count | 数据接收端Receiver的数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_fragment_endpoint_count | 数据接收端Receiver的数量 | 同doris_be_data_stream_receiver_count | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_fragment_request_duration_us | 所有fragment intance的执行时间 | 累计值通过斜率观测 instance的执行耗时 | ≥0 | us | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_fragment_requests_total | 执行过的fragment instance的数量 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_load_channel_count | 当前打开的load channel个数 | 数值越大,说明当前正在执行的导入任务越多 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_mem_consumption_tablet_meta | tablet_meta模块的当前总内存开销 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_mem_consumption_load | load模块的当前总内存开销 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_memory_allocated_bytes | TcMalloc占用的虚拟内存的大小 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_memory_pool_bytes_total | 所有MemPool当前占用的内存大小 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_memtable_flush_duration_us | memtable写入磁盘的耗时 | 累计值通过斜率可以观测写入延迟 | ≥0 | us | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_memtable_flush_total | memtable写入磁盘的个数 | 累计值通过斜率可以计算写入文件的频率 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_meta_request_duration_read | 访问RocksDB中的meta的读取耗时 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_meta_request_duration_write | 访问RocksDB中的meta的写入耗时 | - | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_meta_request_total_read | 访问RocksDB中的meta的读取次数 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_meta_request_total_write | 访问RocksDB中的meta的写入次数 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_plan_fragment_count | 当前已接收的fragment instance的数量 | 观测是否出现instance堆积 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_process_fd_num_limit_hard | BE进程的文件句柄数硬限 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_process_fd_num_limit_soft | BE进程的文件句柄数软限 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_process_fd_num_used | BE进程已使用的文件句柄数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_process_thread_num | BE进程线程数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_query_cache_memory_total_byte | Query Cache占用字节数 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_query_cache_partition_total_count | 当前Partition Cache缓存个数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_query_cache_sql_total_count | 当前SQL Cache缓存个数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_query_scan_bytes | 读取数据量的累计值 | 只统计读取Olap表的数据量 | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_query_scan_bytes_per_second | 读取速率 | - | ≥0 | Byte/s | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_query_scan_rows | 读取行数 | 累计值只统计读取Olap表的数据量,通过斜率观测查询速率。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_result_block_queue_count | 当前查询结果缓存中的fragment instance个数 | 该队列仅用于被外部系统直接读取时使用 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_result_buffer_block_count | 当前查询结果缓存中的query个数 | 该数值反映当前BE中有多少查询的结果正在等待FE消费 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_routine_load_task_count | 当前正在执行的routine load task个数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_rowset_count_generated_and_in_use | 自上次启动后,新增的并且正在使用的rowset id个数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_scanner_thread_pool_queue_size | 用于OlapScanner的线程池的当前排队数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_segment_read_segment_read_total | 读取的segment的个数 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_segment_read_segment_row_total | 读取的segment的行数 | 累计值该数值也包含了被索引过滤的行数 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_send_batch_thread_pool_queue_size | 导入时用于发送数据包的线程池的排队个数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_send_batch_thread_pool_thread_num | 导入时用于发送数据包的线程池的线程数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_small_file_cache_count | 当前BE缓存的小文件数量 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_streaming_load_current_processing | 当前正在运行的stream load任务数 | 仅包含curl命令发送的任务 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_streaming_load_duration_ms | 所有stream load任务执行时间的耗时 | 累计值 | ≥0 | ms | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_streaming_load_requests_total | stream load任务数 | 累计值通过斜率可观测任务提交频率。 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_stream_load_pipe_count | 当前stream load数据管道的个数 | 包括stream load和routine load任务 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_stream_load_load_rows | stream load最终导入的行数 | 包括stream load和routine load任务 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_stream_load_receive_bytes | stream load接收的字节数 | 包括stream load从http接收的数据,以及routine load从kafka读取的数据。 | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_tablet_base_max_compaction_score | 当前最大的Base Compaction Score | 该数值实时变化,有可能丢失峰值数据;数值越高,表示compaction堆积越严重。 | ≥0 | 不涉及 | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_tablet_cumulative_max_compaction_score | 当前最大的Cumulative Compaction Score | - | ≥0 | 不涉及 | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_thrift_connections_total_heartbeat | 心跳服务的连接数 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_thrift_connections_total_backend | BE服务的连接数 | 累计值 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_thrift_current_connections_heartbeat | 心跳服务的当前连接数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_thrift_current_connections_backend | BE服务的当前连接数 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_timeout_canceled_fragment_count | 因超时而被取消的fragment instance数量 | 这个值可能会被重复记录 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_stream_load_txn_request_begin | stream load开始事务数 | 包括stream load和routine load任务 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_stream_load_txn_request_commit | stream load执行成功的事务数 | 包括stream load和routine load任务 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_stream_load_txn_request_rollback | stream load执行失败的事务数 | 包括stream load和routine load任务 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_unused_rowsets_count | 当前已废弃的rowset的个数 | 这些rowset正常情况下会被定期删除 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_load_bytes | 通过tablet sink发送的数量 | 累计值可观测导入数据量 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_load_rows | 通过tablet sink发送的行数 | 累计值可观测导入数据量 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_fragment_thread_pool_queue_size | 当前查询执行线程池等待队列的长度 | - | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_compaction_used_permits | Compaction任务已使用的令牌数量 | 用于反映Compaction的资源消耗量 | ≥0 | Count | 不涉及 | CloudTable实例节点 | 60s | SYS.CloudTable |
doris_be_upload_total_byte | rowset数据量累计值 | - | ≥0 | Byte | 1024(IEC) | CloudTable实例节点 | 60s | SYS.CloudTable |
指标名称 | 显示名称 | 含义 | 取值范围 | 测量对象(维度) | 监控周期(原始指标) | 命名空间 |
|---|---|---|---|---|---|---|
light_work_active_threads | light_work_active_threads | brpc light线程池活跃线程数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
light_work_pool_queue_size | light_work_pool_queue_size | brpc light线程池队列最大长度,超过则阻塞提交work | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
fragment_thread_pool_queue_size | fragment_thread_pool_queue_size | 当前查询执行线程池等待队列的长度 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
process_thread_num | process_thread_num | BE进程线程数 | ≥0 | CloudTable实例节点 | 60s | Service.CloudTable |
维度
Key | Value |
|---|---|
cluster_id | CloudTable集群ID。 该取值的获取方式:进入集群管理页面,单击“集群名称 > 详情”,进入“详情”页,在“集群信息 ”模块中获取集群ID。 |
instance_name | CloudTable集群节点名称。 该取值的获取方式:进入集群管理页面,单击“集群名称 > 详情”,进入“详情”页获取instance_name。 |

