更新时间:2024-09-06 GMT+08:00

基础指标:Flink指标

介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。

表1 Flink服务监控指标

分类

指标

指标含义

单位

CPU

flink_jobmanager_Status_JVM_CPU_Load

JobManager中JVM的CPU负载。

flink_jobmanager_Status_JVM_CPU_Time

jobmanager中JVM使用的CPU时间。

flink_jobmanager_Status_ProcessTree_CPU_Usage

JobManager 中JVM的CPU使用率。

flink_taskmanager_Status_JVM_CPU_Load

TaskManager 中JVM的CPU负载。

flink_taskmanager_Status_JVM_CPU_Time

TaskManager中JVM使用的CPU时间。

flink_taskmanager_Status_ProcessTree_CPU_Usage

TaskManager 中的JVM的CPU使用率。

Memory

flink_jobmanager_Status_JVM_Memory_Heap_Used

JobManager的堆内存使用量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Heap_Committed

保证JobManager的JVM可用的堆内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Heap_Max

JobManager中可用于内存管理的最大堆内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_NonHeap_Used

JobManager的堆外内存使用量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_NonHeap_Committed

保证JobManager的JVM可用的堆外内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_NonHeap_Max

JobManager中可用于内存管理的最大堆外内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Metaspace_Used

JobManager MetaSpace内存池中当前使用的内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Metaspace_Committed

JobManager MetaSpace内存池中保证可供JVM使用的内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Metaspace_Max

JobManager MetaSpace内存池中可以使用的最大内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Direct_Count

JobManager direct缓冲池中的缓冲区数。

flink_jobmanager_Status_JVM_Memory_Direct_MemoryUsed

JobManager中JVM用于direct缓冲池的内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Direct_TotalCapacity

JobManager中direct缓冲池中所有缓冲区的总容量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Mapped_Count

JobManager中mapped缓冲池中的缓冲区个数。

flink_jobmanager_Status_JVM_Memory_Mapped_MemoryUsed

JobManager中JVM用于mapped缓冲池的内存量。

字节(Byte)

flink_jobmanager_Status_JVM_Memory_Mapped_TotalCapacity

JobManager中mapped缓冲池中所有缓冲区的总容量

字节(Byte)

flink_jobmanager_Status_Flink_Memory_Managed_Used

JobManager中已使用的托管内存量。

字节(Byte)

flink_jobmanager_Status_Flink_Memory_Managed_Total

JobManager中托管内存总量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Heap_Used

TaskManager的堆内存使用量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Heap_Committed

保证TaskManager的JVM可用的堆内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Heap_Max

TaskManager中可用于内存管理的最大堆内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_NonHeap_Used

TaskManager的堆外内存使用量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_NonHeap_Committed

保证TaskManager的JVM可用的堆外内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_NonHeap_Max

TaskManager中可用于内存管理的最大堆外内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Metaspace_Used

TaskManager MetaSpace内存池中当前使用的内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Metaspace_Committed

TaskManager MetaSpace内存池中保证可供JVM使用的内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Metaspace_Max

TaskManager MetaSpace内存池中可以使用的最大内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Direct_Count

TaskManager direct缓冲池中的缓冲区数。

flink_taskmanager_Status_JVM_Memory_Direct_MemoryUsed

TaskManager中JVM用于direct缓冲池的内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Direct_TotalCapacity

TaskManager中direct缓冲池中所有缓冲区的总容量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Mapped_Count

TaskManager中mapped缓冲池中的缓冲区个数。

flink_taskmanager_Status_JVM_Memory_Mapped_MemoryUsed

TaskManager中JVM用于mapped缓冲池的内存量。

字节(Byte)

flink_taskmanager_Status_JVM_Memory_Mapped_TotalCapacity

TaskManager中mapped缓冲池中所有缓冲区的总容量。

字节(Byte)

flink_taskmanager_Status_Flink_Memory_Managed_Used

TaskManager中已使用的托管内存量。

字节(Byte)

flink_taskmanager_Status_Flink_Memory_Managed_Total

TaskManager中托管内存总量。

字节(Byte)

flink_taskmanager_Status_ProcessTree_Memory_RSS

通过Linux获取整个进程的内存。

字节(Byte)

Threads

flink_jobmanager_Status_JVM_Threads_Count

JobManager中活动的线程总数。

flink_taskmanager_Status_JVM_Threads_Count

TaskManager中活动中的线程总数。

GarbageCollection

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

JobManager CMS垃圾回收器的回收次数。

次数

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

JobManager CMS执行垃圾回收总耗时。

毫秒(ms)

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count

JobManager GC次数。

次数

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time

JobManager每次GC时间。

毫秒(ms)

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

TaskManager CMS垃圾回收器的回收次数。

次数

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

TaskManager CMS执行垃圾回收总耗时。

毫秒(ms)

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count

TaskManager GC次数。

次数

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time

TaskManager每次GC时间。

毫秒(ms)

ClassLoader

flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded

JobManager自JVM启动以来加载的类的总数。

flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded

JobManager自JVM启动以来卸载的类的总数。

flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded

TaskManager自JVM启动以来加载的类的总数。

flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded

TaskManager自JVM启动以来卸载的类的总数。

Network

flink_taskmanager_Status_Network_AvailableMemorySegments

TaskManager未使用的内存segments的个数。

flink_taskmanager_Status_Network_TotalMemorySegments

TaskManager中分配的内存segments的总数。

Default shuffle service

flink_taskmanager_Status_Shuffle_Netty_AvailableMemorySegments

TaskManager未使用的内存segments的个数。

flink_taskmanager_Status_Shuffle_Netty_UsedMemorySegments

TaskManager已使用的内存segments的个数。

flink_taskmanager_Status_Shuffle_Netty_TotalMemorySegments

TaskManager分配的内存segments的个数。

flink_taskmanager_Status_Shuffle_Netty_AvailableMemory

TaskManager中未使用的内存量。

字节(Byte)

flink_taskmanager_Status_Shuffle_Netty_UsedMemory

TaskManager中已使用的内存量。

字节(Byte)

flink_taskmanager_Status_Shuffle_Netty_TotalMemory

TaskManager中分配的内存量。

字节(Byte)

Availability

flink_jobmanager_job_numRestarts

自作业提交以来的重新启动总数。

Checkpointing

flink_jobmanager_job_lastCheckpointDuration

完成最新checkpoint所用的时间

毫秒(ms)

flink_jobmanager_job_lastCheckpointSize

最新checkpoint的大小,如果启用了增量检查点或更改日志,则此度量可能与lastCheckpointFullSize不同。

字节(Byte)

flink_jobmanager_job_numberOfInProgressCheckpoints

正在进行的checkpoint的数量。

flink_jobmanager_job_numberOfCompletedCheckpoints

成功完成的checkpoint的数量。

flink_jobmanager_job_numberOfFailedCheckpoints

失败的checkpoint的数量。

flink_jobmanager_job_totalNumberOfCheckpoints

所有checkpoint的总数。

IO

flink_taskmanager_job_task_numBytesOut

Task输出的字节总数。

字节(Byte)

flink_taskmanager_job_task_numBytesOutPerSecond

Task每秒输出的字节总数。

字节/秒(Byte/s)

flink_taskmanager_job_task_isBackPressured

Task是否反压。

flink_taskmanager_job_task_numRecordsIn

Task收到的记录总数。

flink_taskmanager_job_task_numRecordsInPerSecond

Task每秒收到的记录总数。

条/秒

flink_taskmanager_job_task_numBytesIn

Task收到的字节数。

字节(Byte)

flink_taskmanager_job_task_numBytesInPerSecond

Task每秒收到的字节数。

字节/秒(Byte/s)

flink_taskmanager_job_task_numRecordsOut

Task发出的记录总数。

flink_taskmanager_job_task_numRecordsOutPerSecond

Task每秒发出的记录总数。

条/秒

flink_taskmanager_job_task_operator_numRecordsIn

Operator收到的记录总数。

flink_taskmanager_job_task_operator_numRecordsInPerSecond

Operator每秒收到的记录总数。

条/秒

flink_taskmanager_job_task_operator_numRecordsOut

Operator发出的记录总数。

flink_taskmanager_job_task_operator_numRecordsOutPerSecond

Operator每秒发出的记录总数。

条/秒

flink_taskmanager_job_task_operator_sourceIdleTime

Source 闲置时长。

毫秒(ms)

flink_taskmanager_job_task_operator_source_numRecordsIn

source收到的记录总数。

flink_taskmanager_job_task_operator_sink_numRecordsOut

Sink端输出记录总数。

flink_taskmanager_job_task_operator_source_numRecordsInPerSecond

数据源Source端每秒输入的记录数。

条/秒

flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond

数据目的Sink端每秒输出的记录数。

条/秒

kafka connector

flink_taskmanager_job_task_operator_currentEmitEventTimeLag

数据的事件时间与数据离开 Source 时的间隔

毫秒(ms)

flink_taskmanager_job_task_operator_currentFetchEventTimeLag

数据的事件时间与数据进入Source的时间间隔

毫秒(ms)

flink_taskmanager_job_task_operator_pendingRecords

尚未被 Source 拉取的数据数量