更新时间:2025-08-07 GMT+08:00

基础指标:容器指标

介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。

表1 CCE/自建K8s集群容器指标

Target名称

Job名称

指标

指标含义

  • serviceMonitor/monitoring/coredns/0
  • serviceMonitor/monitoring/node-local-dns/0

coredns 和node-local-dns

coredns_build_info

CoreDNS的构建信息。

coredns_cache_entries

CoreDNS缓存中元素的数量。

coredns_cache_size

CoreDNS缓存大小。

coredns_cache_hits_total

CoreDNS缓存命中总数。

coredns_cache_misses_total

CoreDNS缓存未命中总数。

coredns_cache_requests_total

不同维度下CoreDNS解析请求的总计数。

coredns_dns_request_duration_seconds_bucket

CoreDNS请求时延。

coredns_dns_request_duration_seconds_count

CoreDNS请求处理时间(秒)计数。

coredns_dns_request_duration_seconds_sum

CoreDNS请求处理时间(秒)总和。

coredns_dns_request_size_bytes_bucket

CoreDNS请求字节数。

coredns_dns_request_size_bytes_count

CoreDNS请求大小(字节)计数。

coredns_dns_request_size_bytes_sum

CoreDNS请求大小(字节)总和。

coredns_dns_requests_total

CoreDNS请求的总数。

coredns_dns_response_size_bytes_bucket

CoreDNS返回字节数。

coredns_dns_response_size_bytes_count

CoreDNS响应大小(字节)计数。

coredns_dns_response_size_bytes_sum

CoreDNS响应大小(字节)总和。

coredns_dns_responses_total

CoreDNS响应码的总数。

coredns_forward_conn_cache_hits_total

每个协议和数据流的缓存命中总数。

coredns_forward_conn_cache_misses_total

每个协议和数据流的缓存未命中总数。

coredns_forward_healthcheck_broken_total

转发健康检查失败总数。

coredns_forward_healthcheck_failures_total

转发健康检查故障总数。

coredns_forward_max_concurrent_rejects_total

并发超限拒绝总数。

coredns_forward_request_duration_seconds_bucket

CoreDNS转发请求时延。

coredns_forward_request_duration_seconds_count

CoreDNS转发请求持续时间(秒)计数。

coredns_forward_request_duration_seconds_sum

CoreDNS转发请求持续时间(秒)总和。

coredns_forward_requests_total

每个数据流的请求总数。

coredns_forward_responses_total

每个数据流的响应总数。

coredns_health_request_duration_seconds_bucket

CoreDNS健康检查请求时延。

coredns_health_request_duration_seconds_count

CoreDNS健康检查请求持续时间(秒)计数。

coredns_health_request_duration_seconds_sum

CoreDNS健康检查请求持续时间(秒)总和。

coredns_health_request_failures_total

CoreDNS健康检查请求失败总数。

coredns_hosts_reload_timestamp_seconds

CoreDNS最近一次加载host文件的时间戳。

coredns_kubernetes_dns_programming_duration_seconds_bucket

DNS编程时延。

coredns_kubernetes_dns_programming_duration_seconds_count

DNS编程持续时间(秒)计数。

coredns_kubernetes_dns_programming_duration_seconds_sum

DNS编程持续时间(秒)总和。

coredns_local_localhost_requests_total

CoreDNS处理的localhost请求总数量。

coredns_nodecache_setup_errors_total

节点缓存插件设置错误总数。

coredns_dns_response_rcode_count_total

不同响应码个数的累计值。

coredns_dns_request_count_total

记录所有请求查询的累计值。

coredns_dns_request_do_count_total

设置了DO标志位的请求次数累计值。

coredns_dns_do_requests_total

设置了DO标志位的请求总数。

coredns_dns_request_type_count_total

每种类型的请求累计值。

coredns_panics_total

CoreDNS发生异常退出的总数。

coredns_plugin_enabled

CoreDNS各插件的启用状态。

coredns_reload_failed_total

重新加载配置文件失败的总数。

serviceMonitor/monitoring/kube-apiserver/0

apiserver

aggregator_unavailable_apiservice

不可用的apiservice数量。

apiserver_admission_controller_admission_duration_seconds_bucket

准入控制器的处理延时。

apiserver_admission_webhook_admission_duration_seconds_bucket

准入Webhook的处理延时。

apiserver_admission_webhook_admission_duration_seconds_count

准入Webhook的处理请求统计。

apiserver_client_certificate_expiration_seconds_bucket

证书剩余有效时长。

apiserver_client_certificate_expiration_seconds_count

证书剩余有效时长。

apiserver_current_inflight_requests

在处理读请求数量。

apiserver_request_duration_seconds_bucket

客户端对apiserver的访问时延。

apiserver_request_total

apiserver请求数按照返回码等维度的总计数。

go_goroutines

当前时间goroutines个数。

kubernetes_build_info

构建信息。

process_cpu_seconds_total

进程占用CPU累计时长。

process_resident_memory_bytes

常驻内存集大小。

rest_client_requests_total

请求apiserver的总数(按照返回码code和请求类型method统计)。

workqueue_adds_total

工作队列增加总数。

workqueue_depth

当前工作队列深度。

workqueue_queue_duration_seconds_bucket

任务在当前队列中的停留时间。

aggregator_unavailable_apiservice_total

不可用的apiservice总数。

rest_client_request_duration_seconds_bucket

请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。

serviceMonitor/monitoring/kubelet/0

kubelet

kubelet_certificate_manager_client_expiration_renew_errors

证书续期错误次数。

kubelet_certificate_manager_client_ttl_seconds

Kubelet客户端证书的TTL。

kubelet_cgroup_manager_duration_seconds_bucket

销毁和更新操作的耗时分布情况。

kubelet_cgroup_manager_duration_seconds_count

销毁和更新的数量。

kubelet_node_config_error

如果节点遇到与配置相关的错误,则此指标为true(1),否则为false(0)。

kubelet_node_name

节点名称,值始终为1。

kubelet_pleg_relist_duration_seconds_bucket

PLEG relist pod耗时的分布情况。

kubelet_pleg_relist_duration_seconds_count

PLEG relist pod不同耗时的数量。

kubelet_pleg_relist_interval_seconds_bucket

PLEG relist间隔的分布情况。

kubelet_pod_start_duration_seconds_count

进行过pod启动的数量。

kubelet_pod_start_duration_seconds_bucket

pod启动的耗时分布情况。

kubelet_pod_worker_duration_seconds_bucket

同步单个Pod的持续时间。

kubelet_running_containers

当前运行的容器数。

kubelet_running_pods

当前运行的pod数。

kubelet_runtime_operations_duration_seconds_bucket

不同操作的累计操作耗时分布情况。

kubelet_runtime_operations_errors_total

不同操作的累计操作失败的总数量。

kubelet_runtime_operations_total

运行过程中不同的操作类型的累计操作总数。

kubelet_volume_stats_available_bytes

卷中可用字节数。

kubelet_volume_stats_capacity_bytes

卷的容量(以字节为单位)。

kubelet_volume_stats_inodes

卷中的最大inode数。

kubelet_volume_stats_inodes_used

卷中已使用的inode数。

kubelet_volume_stats_used_bytes

卷中已使用的字节数。

storage_operation_duration_seconds_bucket

存储操作的持续时间。

storage_operation_duration_seconds_count

存储操作的操作次数。

storage_operation_errors_total

存储操作的错误总数。

volume_manager_total_volumes

卷管理中的卷数量。

rest_client_requests_total

请求apiserver的总数(按照返回码code和请求类型method统计)。

rest_client_request_duration_seconds_bucket

请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。

process_resident_memory_bytes

常驻内存集大小。

process_cpu_seconds_total

进程占用CPU累计时长。

go_goroutines

当前时间goroutines个数。

serviceMonitor/monitoring/kubelet/1

kubelet

container_cpu_cfs_periods_total

容器经过强制限制的周期间隔总数。

container_cpu_cfs_throttled_periods_total

容器限制周期间隔总数。

container_cpu_cfs_throttled_seconds_total

容器被限流的CPU总时间。

container_cpu_load_average_10s

容器过去10秒内的CPU负载的平均值。

container_cpu_usage_seconds_total

容器CPU总使用量。

container_file_descriptors

容器打开的文件描述符数量。

container_fs_inodes_free

文件系统的可用inode区数量。

container_fs_inodes_total

文件系统的总计inode区总数量。

container_fs_io_time_seconds_total

磁盘/文件系统花费在I/O上的累计时间。

container_fs_limit_bytes

容器可以使用的磁盘/文件系统总量。

container_fs_read_seconds_total

容器累积读取磁盘/文件系统数据的总时间。

container_fs_reads_bytes_total

容器累积读取磁盘/文件系统数据的总量。

container_fs_reads_total

容器读取磁盘/文件系统的累积计数。

container_fs_usage_bytes

文件系统的使用量。

container_fs_write_seconds_total

容器累计写入磁盘/文件系统的总时间。

container_fs_writes_bytes_total

容器累积写入磁盘/文件系统数据的总量。

container_fs_writes_total

容器写入磁盘/文件系统的累积总数。

container_memory_cache

容器总页缓存内存。

container_memory_failcnt

容器内存使用达到限制的次数。

container_memory_max_usage_bytes

容器最大内存使用量。

container_memory_rss

容器常驻内存集的大小。

container_memory_swap

容器交换内存使用量。

container_memory_usage_bytes

容器当前的内存使用量。

container_memory_working_set_bytes

容器工作集内存使用量。

container_network_receive_bytes_total

容器网络累积接收数据总量。

container_network_receive_errors_total

容器网络接收时遇到的错误累积计数。

container_network_receive_packets_dropped_total

容器网络接收时丢弃的数据包的累积计数。

container_network_receive_packets_total

容器网络接收数据包的累积计数。

container_network_transmit_bytes_total

容器网络累积传输数据总量。

container_network_transmit_errors_total

容器网络传输时遇到的错误累积计数。

container_network_transmit_packets_dropped_total

容器网络传输时丢弃的数据包的累积计数。

container_network_transmit_packets_total

容器网络传输数据包的累积计数。

container_spec_cpu_quota

容器分配的CPU配额。

container_spec_memory_limit_bytes

容器可以使用的总内存量限制。

machine_cpu_cores

物理机或虚拟机中的CPU核心数量。

machine_memory_bytes

当前物理机或虚拟机的内存总数。

serviceMonitor/monitoring/kube-state-metrics/0

kube-state-metrics-prom

kube_cronjob_status_active

当前活动的周期任务。

kube_cronjob_info

周期任务。

kube_cronjob_labels

周期任务标签。

kube_configmap_info

ConfigMap信息。

kube_daemonset_created

Daemonset创建时间。

kube_daemonset_status_current_number_scheduled

当前调度的DaemonSet数量。

kube_daemonset_status_desired_number_scheduled

期望调度的DaemonSet数量。

kube_daemonset_status_number_available

期望运行DaemonSet且已经至少运行一个Pod的节点数。

kube_daemonset_status_number_misscheduled

期望之外运行DaemonSet的节点数。

kube_daemonset_status_number_ready

期望运行DaemonSet且Pod已经就绪的节点数。

kube_daemonset_status_number_unavailable

期望运行DaemonSet但没有Pod运行的节点数。

kube_daemonset_status_updated_number_scheduled

正在运行已更新的DaemonSet的Pod的节点数。

kube_deployment_created

Deployment创建时间戳。

kube_deployment_labels

Deployment标签。

kube_deployment_metadata_generation

Deployment期望状态的代数。

kube_deployment_spec_replicas

Deployment期望的副本数。

kube_deployment_spec_strategy_rollingupdate_max_unavailable

滚动升级时最大不可用副本数。

kube_deployment_status_observed_generation

Deployment控制器观察到的代数。

kube_deployment_status_replicas

Deployment当前的副本数。

kube_deployment_status_replicas_available

Deployment可用的副本数量。

kube_deployment_status_replicas_ready

Deployment已就绪的副本数量。

kube_deployment_status_replicas_unavailable

Deployment不可用的副本数量。

kube_deployment_status_replicas_updated

Deployment已更新的副本数量。

kube_job_info

Job信息。

kube_namespace_labels

命名空间标签。

kube_node_labels

节点标签。

kube_node_info

节点信息。

kube_node_spec_taint

节点污点信息。

kube_node_spec_unschedulable

节点是否可调度。

kube_node_status_allocatable

节点可分配资源。

kube_node_status_capacity

节点资源总量。

kube_node_status_condition

节点状态条件。

kube_node_volcano_oversubscription_status

节点超卖状态。

kube_persistentvolume_status_phase

PV的状态。

kube_persistentvolumeclaim_status_phase

PVC的状态。

kube_persistentvolume_info

PV信息。

kube_persistentvolumeclaim_info

PVC信息。

kube_pod_container_info

Pod中的容器信息。

kube_pod_container_resource_limits

容器请求的限制资源数。

kube_pod_container_resource_requests

容器请求的请求资源数。

kube_pod_container_status_last_terminated_reason

容器最后终止原因。

kube_pod_container_status_ready

容器就绪状态。

kube_pod_container_status_restarts_total

容器重启总数。

kube_pod_container_status_running

容器当前是否在运行中的状态。

kube_pod_container_status_terminated

容器是否处在终止状态。

kube_pod_container_status_terminated_reason

容器终止原因。

kube_pod_container_status_waiting

容器等待状态。

kube_pod_container_status_waiting_reason

容器等待原因。

kube_pod_info

Pod信息。

kube_pod_labels

Pod标签。

kube_pod_owner

Pod所属对象。

kube_pod_status_phase

Pod当前的阶段。

kube_pod_status_ready

Pod就绪状态。

kube_secret_info

Secret信息。

kube_statefulset_created

StatefulSet的创建时间戳。

kube_statefulset_labels

StatefulSet的标签信息。

kube_statefulset_metadata_generation

StatefulSet元数据生成代数。

kube_statefulset_replicas

StatefulSet期望的Pod数。

kube_statefulset_status_observed_generation

StatefulSet控制器观察到的生成。

kube_statefulset_status_replicas

StatefulSet中有状态的副本数。

kube_statefulset_status_replicas_ready

StatefulSet中就绪状态的副本数。

kube_statefulset_status_replicas_updated

StatefulSet中更新状态的副本数。

kube_job_spec_completions

成功完成所需Pod数量。

kube_job_status_failed

失败的Job。

kube_job_status_succeeded

成功的Job。

kube_node_status_allocatable_cpu_cores

节点可分配CPU核数。

kube_node_status_allocatable_memory_bytes

节点可分配内存。

kube_replicaset_owner

副本集所属对象。

kube_resourcequota

资源配额。

kube_pod_spec_volumes_persistentvolumeclaims_info

Pod关联的PVC信息。

serviceMonitor/monitoring/prometheus-lightweight/0

prometheus-lightweight

vm_persistentqueue_blocks_dropped_total

发送队列Block丢弃总数量。

vm_persistentqueue_blocks_read_total

发送队列Block读取总数量。

vm_persistentqueue_blocks_written_total

发送队列Block写入总数量。

vm_persistentqueue_bytes_pending

发送队列Pending字节数。

vm_persistentqueue_bytes_read_total

发送队列读取的字节总数。

vm_persistentqueue_bytes_written_total

发送队列写入的字节总数。

vm_promscrape_active_scrapers

采集的分片数量。

vm_promscrape_conn_read_errors_total

采集读取错误总数。

vm_promscrape_conn_write_errors_total

采集写入错误总数。

vm_promscrape_max_scrape_size_exceeded_errors_total

采集大小超过限制的总数。

vm_promscrape_scrape_duration_seconds_sum

采集指标的耗时。

vm_promscrape_scrape_duration_seconds_count

采集指标的耗时总和。

vm_promscrape_scrapes_total

采集总数。

vmagent_remotewrite_bytes_sent_total

远程写发送字节总数。

vmagent_remotewrite_duration_seconds_sum

远程写入耗时。

vmagent_remotewrite_duration_seconds_count

远程写入耗时总和。

vmagent_remotewrite_packets_dropped_total

远程写入数据包丢弃总数。

vmagent_remotewrite_pending_data_bytes

远程写入挂起数据字节数。

vmagent_remotewrite_requests_total

远程写入请求总数。

vmagent_remotewrite_retries_count_total

远程写入重试次数总数。

go_goroutines

当前时间goroutines个数。

serviceMonitor/monitoring/node-exporter/0

node-exporter

node_boot_time_seconds

节点开机时间。

node_context_switches_total

上下文切换总数。

node_cpu_seconds_total

在不同模式下节点累计CPU花费的总时间。

node_disk_io_now

当前运行的I/O数量。

node_disk_io_time_seconds_total

I/O总耗时。

node_disk_io_time_weighted_seconds_total

执行I/O所花费的加权总时间。

node_disk_read_bytes_total

读取成功的字节总数。

node_disk_read_time_seconds_total

读取花费的总时长。

node_disk_reads_completed_total

读取完成的总数。

node_disk_write_time_seconds_total

写入花费的总时长。

node_disk_writes_completed_total

写入完成的总数。

node_disk_written_bytes_total

写入成功的字节总数。

node_docker_thinpool_data_space_available

docker Thin pool数据可用空间。

node_docker_thinpool_metadata_space_available

docker Thin pool元数据可用空间。

node_exporter_build_info

Node Exporter构建信息。

node_filefd_allocated

已分配的文件描述符。

node_filefd_maximum

最大文件描述符。

node_filesystem_avail_bytes

文件系统可用空间。

node_filesystem_device_error

文件系统设备错误。

node_filesystem_free_bytes

文件系统剩余空间。

node_filesystem_readonly

只读文件系统。

node_filesystem_size_bytes

文件系统占用空间。

node_forks_total

节点fork总数。

node_intr_total

节点中断总数。

node_load1

节点1分钟CPU负载。

node_load15

节点15分钟CPU负载。

node_load5

节点5分钟CPU负载。

node_memory_Buffers_bytes

节点缓冲区的内存。

node_memory_Cached_bytes

节点页面缓存中的内存。

node_memory_MemAvailable_bytes

节点可用内存。

node_memory_MemFree_bytes

节点空闲内存。

node_memory_MemTotal_bytes

节点内存总量。

node_network_receive_bytes_total

累积接收数据总量。

node_network_receive_drop_total

接收丢包总数。

node_network_receive_errs_total

接收错误总数。

node_network_receive_packets_total

接收数据包总数。

node_network_transmit_bytes_total

累计发送字节总数。

node_network_transmit_drop_total

发送丢包总数。

node_network_transmit_errs_total

发送错误总数。

node_network_transmit_packets_total

发送数据包总数。

node_procs_blocked

当前阻塞的进程。

node_procs_running

当前运行的进程。

node_sockstat_sockets_used

正在使用的套接字总量。

node_sockstat_TCP_alloc

已分配的TCP套接字数量。

node_sockstat_TCP_inuse

正在使用的TCP套接字数量。

node_sockstat_TCP_orphan

无主的TCP连接数。

node_sockstat_TCP_tw

等待关闭的TCP连接数。

node_sockstat_UDPLITE_inuse

UDP-Lite套接字当前使用量。

node_sockstat_UDP_inuse

UDP套接字当前使用量。

node_sockstat_UDP_mem

UDP套接字缓冲区使用量。

node_timex_offset_seconds

时钟时间偏移。

node_timex_sync_status

节点时钟同步状态。

node_uname_info

系统内核信息。

node_vmstat_oom_kill

记录由于内存不足而被系统终止的进程数量。

process_cpu_seconds_total

进程占用CPU累计时长。

process_max_fds

进程最大文件描述符。

process_open_fds

进程当前打开的文件描述符。

process_resident_memory_bytes

常驻内存集大小。

process_start_time_seconds

进程启动时间。

process_virtual_memory_bytes

虚拟内存大小。

process_virtual_memory_max_bytes

可用的最大虚拟内存量。

node_netstat_Tcp_ActiveOpens

从CLOSED状态直接转换到SYN-SENT状态的TCP连接数。

node_netstat_Tcp_PassiveOpens

从LISTEN状态直接转换到SYN-RCVD状态的TCP连接数。

node_netstat_Tcp_CurrEstab

当前状态为ESTABLISHED或CLOSE-WAIT的TCP连接数。

node_vmstat_pgmajfault

VM统计重大页故障(major page faults)次数。

node_vmstat_pgpgout

VM统计页出(page out)次数。

node_vmstat_pgfault

VM统计页面故障(page fault)次数。

node_vmstat_pgpgin

VM统计页入(page in)次数。

node_processes_max_processes

进程上限数量。

node_processes_pids

PID个数。

node_nf_conntrack_entries

链接状态跟踪表分配的数量。

node_nf_conntrack_entries_limit

链接状态跟踪表总量。

promhttp_metric_handler_requests_in_flight

当前正在处理的指标数量。

go_goroutines

当前时间goroutines个数。

node_filesystem_files

节点上文件系统的文件数量。

node_filesystem_files_free

节点上文件系统的可用文件数量。

podMonitor/monitoring/nvidia-gpu-device-plugin/0

monitoring/nvidia-gpu-device-plugin

cce_gpu_utilization

GPU卡算力使用率。

cce_gpu_memory_utilization

GPU卡显存使用率。

cce_gpu_encoder_utilization

GPU卡编码使用率。

cce_gpu_decoder_utilization

GPU卡解码使用率。

cce_gpu_utilization_process

GPU各进程算力使用率。

cce_gpu_memory_utilization_process

GPU各进程显存使用率。

cce_gpu_encoder_utilization_process

GPU各进程编码使用率。

cce_gpu_decoder_utilization_process

GPU各进程解码使用率。

cce_gpu_memory_used

GPU显存使用量。

cce_gpu_memory_total

GPU显存总量。

cce_gpu_memory_free

GPU显存空闲量。

cce_gpu_bar1_memory_used

GPU bar1内存使用量。

cce_gpu_bar1_memory_total

GPU bar1内存总量。

cce_gpu_clock

GPU时钟频率。

cce_gpu_memory_clock

GPU显存频率。

cce_gpu_graphics_clock

GPU图形处理器频率。

cce_gpu_video_clock

GPU视频处理器频率。

cce_gpu_temperature

GPU温度。

cce_gpu_power_usage

GPU功率。

cce_gpu_total_energy_consumption

GPU总能耗。

cce_gpu_pcie_link_bandwidth

GPU pcie带宽。

cce_gpu_nvlink_bandwidth

GPU nvlink带宽。

cce_gpu_pcie_throughput_rx

GPU pcie接收带宽。

cce_gpu_pcie_throughput_tx

GPU pcie发送带宽。

cce_gpu_nvlink_utilization_counter_rx

GPU nvlink接收带宽。

cce_gpu_nvlink_utilization_counter_tx

GPU nvlink发送带宽。

cce_gpu_retired_pages_sbe

GPU 单比特错误隔离页数量。

cce_gpu_retired_pages_dbe

GPU 双比特错误隔离页数量。

xgpu_memory_total

xGPU显存总量。

xgpu_memory_used

xGPU显存使用量。

xgpu_core_percentage_total

xGPU算力总量。

xgpu_core_percentage_used

xGPU算力使用量。

gpu_schedule_policy

GPU模式分成0、1、2三种:0为显存隔离算力共享模式;1为显存算力隔离模式;2为默认模式表示当前卡还没被用于xGPU设备分配。

xgpu_device_health

xGPU设备的健康情况。0表示xGPU设备为健康状态,1表示为非健康状态。

serviceMonitor/monitoring/prometheus-server/0

prometheus-server

prometheus_build_info

Prometheus构建信息。

prometheus_engine_query_duration_seconds

不同分片的响应时间耗时。

prometheus_engine_query_duration_seconds_count

查询普罗的次数。

prometheus_sd_discovered_targets

不同的target采集的指标数。

prometheus_remote_storage_bytes_total

压缩后队列发送的数据(非元数据)的总字节数。

prometheus_remote_storage_enqueue_retries_total

由于分片队列已满而入队失败重试的次数。

prometheus_remote_storage_highest_timestamp_in_seconds

远程存储里最新的时间戳。

prometheus_remote_storage_queue_highest_sent_timestamp_seconds

远程存储成功发送的最大时间戳。

prometheus_remote_storage_samples_dropped_total

远程存储丢弃样本数量。

prometheus_remote_storage_samples_failed_total

远程存储失败样本数量。

prometheus_remote_storage_samples_in_total

远程存储样本数量。

prometheus_remote_storage_samples_pending

远程存储pending样本数量。

prometheus_remote_storage_samples_retried_total

远程存储重试样本数量。

prometheus_remote_storage_samples_total

远程存储样本总数。

prometheus_remote_storage_shard_capacity

用于并行发送到远程存储的队列中每个分片的容量。

prometheus_remote_storage_shards

当前用于并行发送到远程存储的分片数。

prometheus_remote_storage_shards_desired

分片队列期望基于输入样本和输出样本的比率运行的分片数。

prometheus_remote_storage_shards_max

可用于并行发送到远程存储的分片数的最大值。

prometheus_remote_storage_shards_min

可用于并行发送到远程存储的分片数的最小值。

prometheus_tsdb_wal_segment_current

TSDB当前正在写入的WAL段索引。

prometheus_tsdb_head_chunks

head中保存的数据块数量。

prometheus_tsdb_head_series

head中保存的时间序列数量。

prometheus_tsdb_head_samples_appended_total

head中添加的样本数量。

prometheus_wal_watcher_current_segment

每个远程写入实例当前正在读取的WAL段文件。

prometheus_target_interval_length_seconds

指标采集时间间隔。

prometheus_target_interval_length_seconds_count

指标采集时间间隔计数。

prometheus_target_interval_length_seconds_sum

指标采集时间间隔总和。

prometheus_target_scrapes_exceeded_body_size_limit_total

指标采集body大小超限次数。

prometheus_target_scrapes_exceeded_sample_limit_total

指标采集样本超限次数。

prometheus_target_scrapes_sample_duplicate_timestamp_total

时间戳重复样本数量。

prometheus_target_scrapes_sample_out_of_bounds_total

时间戳超限样本数量。

prometheus_target_scrapes_sample_out_of_order_total

乱序样本数量。

prometheus_target_sync_length_seconds

target采集同步的间隔。

prometheus_target_sync_length_seconds_count

target采集同步的间隔计数。

prometheus_target_sync_length_seconds_sum

target采集同步的间隔总和。

promhttp_metric_handler_requests_in_flight

当前正在处理的指标请求数量。

promhttp_metric_handler_requests_total

指标请求处理次数。

go_goroutines

当前时间goroutines个数。

podMonitor/monitoring/virtual-kubelet-pods/0

monitoring/virtual-kubelet-pods

container_cpu_load_average_10s

容器过去10秒内的CPU负载的平均值。

container_cpu_system_seconds_total

容器系统CPU累积占用时间。

container_cpu_usage_seconds_total

容器在所有CPU内核上的累积占用时间。

container_cpu_user_seconds_total

容器用户CPU累积占用时间。

container_cpu_cfs_periods_total

容器已经执行的CPU时间周期数。

container_cpu_cfs_throttled_periods_total

容器被限流的CPU时间周期数。

container_cpu_cfs_throttled_seconds_total

容器被限流的CPU时间。

container_fs_inodes_free

文件系统的可用inode数量。

container_fs_usage_bytes

文件系统的使用量。

container_fs_inodes_total

文件系统的总计inode数量。

container_fs_io_current

磁盘/文件系统当前正在进行的I/O数量。

container_fs_io_time_seconds_total

磁盘/文件系统花费在I/O上的累计时间。

container_fs_io_time_weighted_seconds_total

磁盘/文件系统累积加权I/O时间。

container_fs_limit_bytes

容器可以使用的磁盘/文件系统总量。

container_fs_reads_bytes_total

容器累积读取磁盘/文件系统数据的总量。

container_fs_read_seconds_total

容器累积读取磁盘/文件系统数据的时间。

container_fs_reads_merged_total

容器合并读取磁盘/文件系统的累积计数。

container_fs_reads_total

容器读取磁盘/文件系统的累积计数。

container_fs_sector_reads_total

容器扇区读取磁盘/文件系统的累积计数。

container_fs_sector_writes_total

容器扇区写入磁盘/文件系统的累积计数。

container_fs_writes_bytes_total

容器累积写入磁盘/文件系统数据的总量。

container_fs_write_seconds_total

容器累计写入磁盘/文件系统的时间。

container_fs_writes_merged_total

容器合并写入磁盘/文件系统的累积计数。

container_fs_writes_total

容器写入磁盘/文件系统的累积计数。

container_blkio_device_usage_total

容器区分IO操作对磁盘的使用总量。

container_memory_failures_total

容器内存分配失败的累积计数。

container_memory_failcnt

容器内存使用达到限制的次数。

container_memory_cache

容器总页缓存内存。

container_memory_mapped_file

容器内存映射文件的大小。

container_memory_max_usage_bytes

容器最大内存使用量。

container_memory_rss

容器常驻内存集的大小。

container_memory_swap

容器虚拟内存使用量。

container_memory_usage_bytes

容器当前的内存使用量。

container_memory_working_set_bytes

容器工作集内存使用量。

container_network_receive_bytes_total

容器网络累积接收数据总量。

container_network_receive_errors_total

容器网络接收时遇到的错误累积计数。

container_network_receive_packets_dropped_total

容器网络接收时丢弃的数据包的累积计数。

container_network_receive_packets_total

容器网络接收数据包的累积计数。

container_network_transmit_bytes_total

容器网络累积传输数据总量。

container_network_transmit_errors_total

容器网络传输时遇到的错误累积计数。

container_network_transmit_packets_dropped_total

容器网络传输时丢弃的数据包的累积计数。

container_network_transmit_packets_total

容器网络传输数据包的累积计数。

container_processes

容器当前运行的进程数。

container_sockets

容器当前打开套接字的个数。

container_file_descriptors

容器当前打开文件描述符的个数。

container_threads

容器内当前运行的线程数。

container_threads_max

容器内允许运行的最大线程数。

container_ulimits_soft

容器内1号进程的软限制值。如果为-1,则无限制,优先级和nice除外。

container_tasks_state

处于给定状态的任务数(sleeping,running,stopped,uninterruptible,ioawaiting)。

container_spec_cpu_period

容器分配的CPU周期。

container_spec_cpu_shares

容器分配的CPU份额。

container_spec_cpu_quota

容器分配的CPU配额。

container_spec_memory_limit_bytes

容器可以使用的总内存量限制。

container_spec_memory_reservation_limit_bytes

容器可以使用的预留内存限制。

container_spec_memory_swap_limit_bytes

容器可以使用的虚拟内存限制。

container_start_time_seconds

容器已经运行的时间。

container_last_seen

最近一次监控采集器感知到容器的时间。

container_accelerator_memory_used_bytes

容器正在使用的GPU加速卡内存量。

container_accelerator_memory_total_bytes

容器GPU加速卡可用内存总量。

container_accelerator_duty_cycle

GPU加速卡实际运行时间百分比。

podMonitor/monitoring/everest-csi-controller/0

monitoring/everest-csi-controller

everest_action_result_total

不同功能的调用情况。

everest_function_duration_seconds_bucket

不同功能在不同执行时间下的次数。

everest_function_duration_seconds_count

不同功能的调用次数。

everest_function_duration_seconds_sum

不同功能的调用时间总和。

everest_function_duration_quantile_seconds

不同功能调用所需的时间分位数。

node_volume_read_completed_total

读操作完成次数。

node_volume_read_merged_total

读操作合并次数。

node_volume_read_bytes_total

扇区读字节总数。

node_volume_read_time_milliseconds_total

读操作总耗时。

node_volume_write_completed_total

写操作完成次数。

node_volume_write_merged_total

写操作合并次数。

node_volume_write_bytes_total

扇区写字节总数。

node_volume_write_time_milliseconds_total

写操作总耗时。

node_volume_io_now

当前正在进行的I/O次数。

node_volume_io_time_seconds_total

I/O操作总耗时。

node_volume_capacity_bytes_available

可用容量。

node_volume_capacity_bytes_total

总容量。

node_volume_capacity_bytes_used

已用容量。

node_volume_inodes_available

可用inode。

node_volume_inodes_total

总inode。

node_volume_inodes_used

已用inode。

node_volume_read_transmissions_total

读取传输次数。

node_volume_read_timeouts_total

读取超时次数。

node_volume_read_sent_bytes_total

读取字节数。

node_volume_read_queue_time_milliseconds_total

读取队列等待总耗时。

node_volume_read_rtt_time_milliseconds_total

读取rtt总时长。

node_volume_write_transmissions_total

写入传输总数。

node_volume_write_timeouts_total

写入超时总数。

node_volume_write_queue_time_milliseconds_total

写入队列等待总耗时。

node_volume_write_rtt_time_milliseconds_total

写入rtt总时长。

node_volume_localvolume_stats_capacity_bytes

本地存储卷总容量。

node_volume_localvolume_stats_available_bytes

本地存储卷可用量。

node_volume_localvolume_stats_used_bytes

本地存储卷已用量。

node_volume_localvolume_stats_inodes

本地存储卷inodes数量。

node_volume_localvolume_stats_inodes_used

本地存储卷inodes已用量。

podMonitor/monitoring/nginx-ingress-controller/0

monitoring/nginx-ingress-controller

nginx_ingress_controller_connect_duration_seconds_bucket

与上游服务器建立连接所花费的时间。

nginx_ingress_controller_connect_duration_seconds_sum

与上游服务器建立连接所花费的时间。

nginx_ingress_controller_connect_duration_seconds_count

与上游服务器建立连接所花费的时间。

nginx_ingress_controller_request_duration_seconds_bucket

请求处理时间(以毫秒为单位)。

nginx_ingress_controller_request_duration_seconds_sum

请求处理时间(以毫秒为单位)。

nginx_ingress_controller_request_duration_seconds_count

请求处理时间(以毫秒为单位)。

nginx_ingress_controller_request_size_bucket

请求长度(包括请求行、请求头和请求体)。

nginx_ingress_controller_request_size_sum

请求长度(包括请求行、请求头和请求体)。

nginx_ingress_controller_request_size_count

请求长度(包括请求行、请求头和请求体)。

nginx_ingress_controller_response_duration_seconds_bucket

从上游服务器接收响应所花费的时间。

nginx_ingress_controller_response_duration_seconds_sum

从上游服务器接收响应所花费的时间。

nginx_ingress_controller_response_duration_seconds_count

从上游服务器接收响应所花费的时间。

nginx_ingress_controller_response_size_bucket

响应长度(包括请求行、头和请求体)。

nginx_ingress_controller_response_size_sum

响应长度(包括请求行、头和请求体)。

nginx_ingress_controller_response_size_count

响应长度(包括请求行、头和请求体)。

nginx_ingress_controller_header_duration_seconds_bucket

从上游服务器接收第一个header所用的时间。

nginx_ingress_controller_header_duration_seconds_sum

从上游服务器接收第一个header所用的时间。

nginx_ingress_controller_header_duration_seconds_count

从上游服务器接收第一个header所用的时间。

nginx_ingress_controller_bytes_sent

发送到客户端的字节数。

nginx_ingress_controller_ingress_upstream_latency_seconds

上行服务延迟。

nginx_ingress_controller_requests

客户端请求的总数。

nginx_ingress_controller_nginx_process_connections

当前处于活动、读取、写入、等待状态,每种状态各自的客户端连接数。

nginx_ingress_controller_nginx_process_connections_total

自启动以来处于接受、已处理状态,每种状态各自的客户端连接总数。

nginx_ingress_controller_nginx_process_cpu_seconds_total

Nginx进程消耗的CPU时间总量(以秒为单位)。

nginx_ingress_controller_nginx_process_num_procs

进程数。

nginx_ingress_controller_nginx_process_oldest_start_time_seconds

自1970/01/01以来的开始时间(以秒为单位)。

nginx_ingress_controller_nginx_process_read_bytes_total

读取的字节总数。

nginx_ingress_controller_nginx_process_requests_total

自启动以来,Nginx处理的请求总数。

nginx_ingress_controller_nginx_process_resident_memory_bytes

进程的常驻内存集使用量,即实际占用的物理内存大小。

nginx_ingress_controller_nginx_process_virtual_memory_bytes

进程的虚拟内存使用量,即分配给进程的总内存大小,包括实际物理内存和虚拟交换空间。

nginx_ingress_controller_nginx_process_write_bytes_total

进程向磁盘或其他长期存储设备写入的总数据量。

nginx_ingress_controller_build_info

一个带有常量“1”的度量,标记有关于构建的信息。

nginx_ingress_controller_check_success

语法检查累计次数。

nginx_ingress_controller_config_hash

运行配置的哈希值。

nginx_ingress_controller_config_last_reload_successful

最后一次尝试重新加载配置是否成功。

nginx_ingress_controller_config_last_reload_successful_timestamp_seconds

最后一次成功重新加载配置的时间戳。

nginx_ingress_controller_ssl_certificate_info

保留与证书相关的所有信息。

nginx_ingress_controller_success

重新加载操作的累计次数。

nginx_ingress_controller_orphan_ingress

孤立ingress的状态,1表示孤立ingress。0 表示正常。

namespace:是用于标识ingress名称空间的字符串。

ingress:表示ingress名称。

type:表示孤立ingress的状态,取值为no-service或no-endpoint。

nginx_ingress_controller_admission_config_size

准入控制器的配置大小。

nginx_ingress_controller_admission_render_duration

准入控制器配置渲染所花费的时间。

nginx_ingress_controller_admission_render_ingresses

准入控制器配置渲染的入口长度。

nginx_ingress_controller_admission_roundtrip_duration

准入控制器处理新事件所花费的时间。

nginx_ingress_controller_admission_tested_duration

准入控制器测试所花费的时间。

nginx_ingress_controller_admission_tested_ingresses

准入控制器测试的入口长度。

podMonitor/monitoring/cceaddon-npd/0

monitoring/cceaddon-npd

problem_counter

检测项异常发生的次数。

problem_gauge

检测项是否触发异常。

  • 0:未触发。
  • 1:已触发。