StarRocks集群监控指标说明
功能说明
监控是保持CloudTable服务可靠性、可用性和性能的重要部分,通过监控,用户可以观察CloudTable服务器的运行状态。本章节定义了表格存储服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。
命名空间
SYS.CloudTable
StarRocks监控指标
指标名称 |
显示名 |
含义 |
单位 |
监控周期 |
---|---|---|---|---|
cmdProcessCPU |
CPU使用率 |
统计测量对象的CPU使用率。 |
% |
60s |
memory_usage |
内存使用量 |
每个节点的内存使用量。 |
MB |
60s |
cmdProcessMem |
内存使用率 |
统计测量对象的内存使用率。 |
% |
60s |
disk_usage |
磁盘使用量 |
每个节点的磁盘使用量。 |
MB |
60s |
cmdForUsedStorageRate |
已用存储空间比率 |
统计测量对象所在集群的已用存储空间大小占总配额的比率。 |
% |
60s |
disk_throughput_read_rate |
磁盘吞吐读速率 |
磁盘读取吞吐速率。 |
Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s |
60s |
disk_throughput_write_rate |
磁盘吞吐写速率 |
磁盘写入吞吐速率。 |
Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s |
60s |
network_throughput_inbound_rate |
网络吞吐流入速率 |
每个节点每秒的网络流入数据量。 |
KB/s |
60s |
network_throughput_outgoing_rate |
网络吞吐流出速率 |
每个节点每秒的网络流出数据量。 |
KB/s |
60s |
starrocks_fe_connection_total |
当前FE的MySQL端口连接数 |
用于监控查询连接数。如果连接数超限,则新的连接将无法接入。 |
Count |
60s |
starrocks_fe_edit_log_read |
元数据日志读取次数的计数 |
通过斜率观察元数据读取频率是否正常。 |
Count |
60s |
starrocks_fe_edit_log_write |
元数据日志写入次数的计数 |
通过斜率观察元数据读取频率是否正常。 |
Count |
60s |
starrocks_fe_max_journal_id |
当前FE节点最大元数据日志ID |
如果是Master FE,则是当前写入的最大ID,如果是非Master FE,则代表当前回放的元数据日志最大ID;用于观察多个FE之间的id是否差距过大,过大则表示元数据同步出现问题。 |
不涉及 |
60s |
starrocks_fe_max_tablet_compaction_score |
所有BE节点中最大的compaction score值 |
该值可以观测当前集群最大的 compaction score,以判断是否过高,如过高则可能出现查询或写入延迟。 |
不涉及 |
60s |
starrocks_fe_qps |
当前FE每秒查询数量(仅统计查询请求) |
QPS |
Count/s |
60s |
starrocks_fe_query_err |
错误查询的累积值 |
- |
Count |
60s |
starrocks_fe_query_err_rate |
每秒错误查询数 |
- |
Count/s |
60s |
starrocks_fe_query_latency_ms_99 |
查询请求延迟的99分位的查询延迟 |
- |
ms |
60s |
starrocks_fe_query_latency_ms_999 |
查询请求延迟的999分位的查询延迟 |
- |
ms |
60s |
starrocks_fe_query_total |
所有查询请求数 |
- |
Count |
60s |
starrocks_fe_report_queue_size |
BE的各种定期汇报任务在FE端的队列长度 |
该值反映了汇报任务在Master FE节点上的阻塞程度,数值越大,表示FE处理能力不足。 |
Count |
60s |
starrocks_fe_request_total |
所有通过MySQL端口接收的操作请求(包括查询和其他语句) |
- |
Count |
60s |
starrocks_fe_routine_load_error_rows |
集群内所有Routine Load作业的错误行数总和 |
- |
Count |
60s |
starrocks_fe_routine_load_receive_bytes |
集群内所有Routine Load作业接收的数据量大小 |
- |
Byte |
60s |
starrocks_fe_routine_load_rows |
集群内所有Routine Load作业接收的数据行数 |
- |
Count |
60s |
starrocks_fe_rps |
当前FE每秒请求数量(包含查询以及其他各类语句) |
和QPS配合来查看集群处理请求的量。 |
Count |
60s |
starrocks_fe_scheduled_tablet_num |
Master FE节点正在调度的tablet数量 |
包括正在修复的副本和正在均衡的副本;该数值可以反映当前集群,正在迁移的tablet数量;如果长时间有值,说明集群不稳定。 |
Count |
60s |
jvm_heap_size_bytes_committed |
已申请的堆内存 |
观测JVM内存使用情况。 |
Byte、KiB、MiB、GiB、TiB、PiB |
60s |
jvm_heap_size_bytes_max |
最大堆内存 |
观测JVM内存使用情况。 |
Byte、KiB、MiB、GiB、TiB、PiB |
60s |
jvm_heap_size_bytes_used |
已使用的堆内存 |
观测JVM内存使用情况。 |
Byte、KiB、MiB、GiB、TiB、PiB |
60s |
jvm_non_heap_size_bytes_committed |
已申请的堆外内存 |
- |
Byte、KiB、MiB、GiB、TiB、PiB |
60s |
jvm_non_heap_size_bytes_used |
已使用堆外内存 |
- |
Byte、KiB、MiB、GiB、TiB、PiB |
60s |
jvm_thread_peak_count |
线程峰值计数 |
观测JVM线程数是否合理 |
Count |
60s |
指标名称 |
显示名 |
含义 |
指标单位 |
监控周期 |
---|---|---|---|---|
cmdProcessCPU |
CPU使用率 |
统计测量对象的CPU使用率。 |
% |
60s |
memory_usage |
内存使用量 |
每个节点的内存使用量。 |
MB |
60s |
memory_usage_ratio |
内存使用率 |
统计测量对象的内存使用率。 |
% |
60s |
disk_usage |
磁盘使用量 |
每个节点的磁盘使用量。 |
MB |
60s |
cmdForUsedStorageRate |
已用存储空间比率 |
统计测量对象所在集群的已用存储空间大小占总配额的比率。 |
% |
60s |
disk_throughput_read_rate |
磁盘吞吐读速率 |
磁盘读取吞吐速率。 |
Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s |
60s |
disk_throughput_write_rate |
磁盘吞吐写速率 |
磁盘读取吞吐速率。 |
Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s |
60s |
network_throughput_inbound_rate |
网络吞吐流入速率 |
每个节点每秒的网络流入数据量。 |
KB/s |
60s |
network_throughput_outgoing_rate |
网络吞吐流出速率 |
每个节点每秒的网络流出数据量。 |
KB/s |
60s |
starrocks_be_active_scan_context_count |
由外部直接打开的scanner的个数 |
- |
Count |
60s |
starrocks_be_brpc_endpoint_stub_count |
已创建的brpc stub的数量(BE) |
这些stub用于BE之间的交互。 |
Count |
60s |
starrocks_be_chunk_pool_local_core_alloc_count |
ChunkAllocator中,从绑定的core的内存队列中分配内存的次数 |
- |
Count |
60s |
starrocks_be_chunk_pool_other_core_alloc_count |
ChunkAllocator中,从其他的core的内存队列中分配内存的次数 |
- |
Count |
60s |
starrocks_be_chunk_pool_system_alloc_cost_ns |
SystemAllocator申请内存的耗时 |
累计值,通过斜率可以观测内存分配的耗时。 |
ns |
60s |
starrocks_be_chunk_pool_system_alloc_count |
SystemAllocator申请内存的次数 |
- |
Count |
60s |
starrocks_be_chunk_pool_system_free_cost_ns |
SystemAllocator释放内存的耗时累计值 |
通过斜率可以观测内存释放的耗时。 |
ns |
60s |
starrocks_be_chunk_pool_system_free_count |
SystemAllocator释放内存的次数 |
- |
Count |
60s |
starrocks_be_compaction_bytes_total_base |
Base Compaction的数据量 |
累计值。 |
Byte |
60s |
starrocks_be_compaction_bytes_total_cumulative |
Cumulative Compaction的数据量 |
累计值。 |
Byte |
60s |
starrocks_be_compaction_deltas_total_base |
Base Compaction处理的rowset个数 |
累计值。 |
Count |
60s |
starrocks_be_compaction_deltas_total_cumulative |
Cumulative Compaction处理的rowset个数 |
Cumulative Compaction处理的rowset个数。 |
Count |
60s |
starrocks_be_data_stream_receiver_count |
数据接收端Receiver的数量 |
- |
Count |
60s |
starrocks_be_fragment_request_duration_us |
所有fragment intance的执行时间 |
累计值,通过斜率观测instance的执行耗时。 |
us |
60s |
starrocks_be_fragment_requests_total |
执行过的fragment instance的数量 |
累计值。 |
Count |
60s |
starrocks_be_load_bytes |
通过tablet sink发送的数量 |
累计值,可观测导入数据量。 |
Count |
60s |
starrocks_be_load_channel_count |
当前打开的load channel个数 |
数值越大,说明当前正在执行的导入任务越多。 |
Count |
60s |
starrocks_be_load_rows |
通过tablet sink发送的行数 |
累计值,可观测导入数据量。 |
Count |
60s |
starrocks_be_memory_pool_bytes_total |
所有MemPool当前占用的内存大小 |
- |
Byte |
60s |
starrocks_be_memtable_flush_duration_us |
memtable写入磁盘的耗时 |
累计值,通过斜率可以观测写入延迟。 |
us |
60s |
starrocks_be_memtable_flush_total |
memtable写入磁盘的个数 |
累计值,通过斜率可以计算写入文件的频率。 |
Count |
60s |
starrocks_be_meta_request_duration_read |
访问RocksDB中的meta的读取耗时 |
- |
ms |
60s |
starrocks_be_meta_request_duration_write |
访问RocksDB中的meta的写入耗时 |
- |
ms |
60s |
starrocks_be_meta_request_total_read |
访问RocksDB中的meta的读取次数 |
累计值。 |
Count |
60s |
starrocks_be_meta_request_total_write |
访问RocksDB中的meta的写入次数 |
累计值。 |
Count |
60s |
starrocks_be_plan_fragment_count |
当前已接收的fragment instance的数量 |
观测是否出现instance堆积。 |
Count |
60s |
starrocks_be_process_fd_num_limit_hard |
BE进程的文件句柄数硬限 |
- |
Count |
60s |
starrocks_be_process_fd_num_limit_soft |
BE进程的文件句柄数软限 |
- |
Count |
60s |
starrocks_be_process_fd_num_used |
BE进程已使用的文件句柄数 |
- |
Count |
60s |
starrocks_be_process_thread_num |
BE进程线程数 |
- |
Count |
60s |
starrocks_be_query_scan_bytes |
读取数据量的累计值 |
只统计读取Olap表的数据量。 |
Byte |
60s |
starrocks_be_query_scan_bytes_per_second |
读取速率 |
- |
Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s |
60s |
starrocks_be_query_scan_rows |
读取行数 |
累计值,只统计读取Olap表的数据量,通过斜率观测查询速率。 |
Count |
60s |
starrocks_be_result_block_queue_count |
当前查询结果缓存中的fragment instance个数 |
该队列仅用于被外部系统直接读取时使用。 |
Count |
60s |
starrocks_be_result_buffer_block_count |
当前查询结果缓存中的query个数 |
该数值反映当前BE中有多少查询的结果正在等待FE消费。 |
Count |
60s |
starrocks_be_routine_load_task_count |
当前正在执行的routine load task个数 |
- |
Count |
60s |
starrocks_be_rowset_count_generated_and_in_use |
自上次启动后,新增的并且正在使用的rowset id个数 |
- |
Count |
60s |
starrocks_be_small_file_cache_count |
当前BE缓存的小文件数量 |
- |
Count |
60s |
starrocks_be_stream_load_load_rows |
stream load最终导入的行数 |
包括stream load和routine load任务。 |
Count |
60s |
starrocks_be_stream_load_pipe_count |
当前stream load数据管道的个数 |
包括stream load和routine load任务。 |
Count |
60s |
starrocks_be_stream_load_receive_bytes |
stream load接收的字节数 |
包括stream load从http接收的数据,以及routine load从kafka读取的数据。 |
Byte、KiB、MiB、GiB、TiB、PiB |
60s |
starrocks_be_streaming_load_current_processing |
当前正在运行的stream load任务数 |
仅包含curl命令发送的任务。 |
Count |
60s |
starrocks_be_streaming_load_duration_ms |
所有stream load任务执行时间的耗时 |
累计值。 |
ms |
60s |
starrocks_be_streaming_load_requests_total |
stream load任务数 |
累计值,通过斜率可观测任务提交频率。 |
Count |
60s |
starrocks_be_tablet_base_max_compaction_score |
当前最大的Base Compaction Score |
该数值实时变化,有可能丢失峰值数据;数值越高,表示compaction堆积越严重。 |
不涉及 |
60s |
starrocks_be_tablet_cumulative_max_compaction_score |
当前最大的Cumulative Compaction Score |
- |
不涉及 |
60s |
starrocks_be_thrift_connections_total_heartbeat |
心跳服务的连接数 |
累计值 |
Count |
60s |
starrocks_be_thrift_current_connections_heartbeat |
心跳服务的当前连接数 |
- |
Count |
60s |
starrocks_be_unused_rowsets_count |
当前已废弃的rowset的个数 |
这些rowset正常情况下会被定期删除。 |
Count |
60s |
维度
Key |
Value |
---|---|
cluster_id |
CloudTable集群ID。 |
instance_name |
CloudTable集群节点名称。 |