更新时间:2024-05-27 GMT+08:00

基础指标:node-exporter指标

介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。

表1 CCE/自建K8s集群容器指标

Job名称

指标

指标含义

node-exporter

node_filesystem_size_bytes

挂载的文件系统占用空间

node_filesystem_readonly

只读挂载的文件系统

node_filesystem_free_bytes

挂载的文件系统剩余空间

node_filesystem_avail_bytes

挂载的文件系统可用空间

node_cpu_seconds_total

节点CPU时间

node_network_receive_bytes_total

累积接收数据总量

node_network_receive_errs_total

接收时遇到的错误累积计数

node_network_transmit_bytes_total

累积传输数据总量

node_network_receive_packets_total

接收数据包的累积计数

node_network_transmit_drop_total

传输时丢弃的累积计数

node_network_transmit_errs_total

传输时遇到的错误累积计数

node_network_up

网卡的状态

node_network_transmit_packets_total

传输数据包的累积计数

node_network_receive_drop_total

接收时丢弃的累积计数

go_gc_duration_seconds

数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大,这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。

node_load5

节点5分钟CPU负载

node_filefd_allocated

已分配的文件描述符

node_exporter_build_info

NodeExporter构建信息

node_disk_written_bytes_total

写入成功的字节总数

node_disk_writes_completed_total

写入完成的次数

node_disk_write_time_seconds_total

写入花费的总时长

node_nf_conntrack_entries

链接状态跟踪表分配的数量

node_nf_conntrack_entries_limit

链接状态跟踪表总量

node_processes_max_processes

PID限制值

node_processes_pids

PID个数

node_sockstat_TCP_alloc

已分配的TCP套接字数量

node_sockstat_TCP_inuse

正在使用的TCP套接字数量

node_sockstat_TCP_tw

等待关闭的TCP连接数

node_timex_offset_seconds

时钟时间偏移

node_timex_sync_status

节点时钟同步状态

node_uname_info

节点uname信息

node_vmstat_pgfault

/proc/vmstat中的pgfault

node_vmstat_pgmajfault

/proc/vmstat中的pgmajfault

node_vmstat_pgpgin

/proc/vmstat中的pgpgin

node_vmstat_pgpgout

/proc/vmstat中的pgpgout

node_disk_reads_completed_total

读取完成的次数

node_disk_read_time_seconds_total

读取花费的总时长

process_cpu_seconds_total

该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),参数的单位为jiffies,jiffy描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。

node_disk_read_bytes_total

读取成功的字节总数

node_disk_io_time_weighted_seconds_total

执行I/O所花费的加权秒数

node_disk_io_time_seconds_total

I/O总耗时

node_disk_io_now

当前运行的I/O数量

node_context_switches_total

上下文切换次数

node_boot_time_seconds

节点开机时间

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。

node_intr_total

节点中断总数

node_load1

节点1分钟CPU负载

go_goroutines

通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。

scrape_duration_seconds

采集scrape target花费的时间

node_load15

节点15分钟CPU负载

scrape_samples_post_metric_relabeling

metric被重设标签后,剩余sample数量

node_netstat_Tcp_PassiveOpens

从LISTEN 状态直接转换到SYN-RCVD 状态的TCP连接数

scrape_samples_scraped

scrape target暴露的sample数量

node_netstat_Tcp_CurrEstab

当前状态为ESTABLISHED 或CLOSE-WAIT 的TCP 连接数

scrape_series_added

scrape target新增加的系列数

node_netstat_Tcp_ActiveOpens

从CLOSED 状态直接转换到SYN-SENT 状态的TCP连接数

node_memory_MemTotal_bytes

节点内存总量

node_memory_MemFree_bytes

节点空闲内存

node_memory_MemAvailable_bytes

节点可用内存

node_memory_Cached_bytes

节点页面缓存中的内存

up

scrape target的状态

node_memory_Buffers_bytes

节点缓冲区的内存