基础指标:容器指标
介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。
Target名称 |
Job名称 |
指标 |
指标含义 |
---|---|---|---|
|
coredns 和node-local-dns |
coredns_build_info |
CoreDNS的构建信息 |
coredns_cache_entries |
缓存中元素的数量 |
||
coredns_cache_size |
缓存大小 |
||
coredns_cache_hits_total |
缓存命中次数 |
||
coredns_cache_misses_total |
缓存未命中次数 |
||
coredns_cache_requests_total |
不同维度下DNS解析请求的计数 |
||
coredns_dns_request_duration_seconds_bucket |
DNS请求耗时直方图bucket |
||
coredns_dns_request_duration_seconds_count |
DNS请求耗时直方图count |
||
coredns_dns_request_duration_seconds_sum |
DNS请求耗时直方图sum |
||
coredns_dns_request_size_bytes_bucket |
DNS请求大小直方图bucket |
||
coredns_dns_request_size_bytes_count |
DNS请求大小直方图count |
||
coredns_dns_request_size_bytes_sum |
DNS请求大小直方图sum |
||
coredns_dns_requests_total |
DNS请求次数 |
||
coredns_dns_response_size_bytes_bucket |
DNS响应大小直方图bucket |
||
coredns_dns_response_size_bytes_count |
DNS响应大小直方图count |
||
coredns_dns_response_size_bytes_sum |
DNS响应大小直方图sum |
||
coredns_dns_responses_total |
DNS响应码及数量 |
||
coredns_forward_conn_cache_hits_total |
每个协议和数据流的缓存命中次数 |
||
coredns_forward_conn_cache_misses_total |
每个协议和数据流的缓存未命中次数 |
||
coredns_forward_healthcheck_broken_total |
健康检查broken次数 |
||
coredns_forward_healthcheck_failures_total |
健康检查失败次数 |
||
coredns_forward_max_concurrent_rejects_total |
并发超限拒绝次数 |
||
coredns_forward_request_duration_seconds_bucket |
forward请求耗时直方图bucket |
||
coredns_forward_request_duration_seconds_count |
forward请求耗时直方图count |
||
coredns_forward_request_duration_seconds_sum |
forward请求耗时直方图sum |
||
coredns_forward_requests_total |
每个数据流的请求次数 |
||
coredns_forward_responses_total |
每个数据流的响应次数 |
||
coredns_health_request_duration_seconds_bucket |
health请求耗时直方图bucket |
||
coredns_health_request_duration_seconds_count |
health请求耗时直方图count |
||
coredns_health_request_duration_seconds_sum |
health请求耗时直方图sum |
||
coredns_health_request_failures_total |
health请求失败总数 |
||
coredns_hosts_reload_timestamp_seconds |
最近一次加载host文件的时间戳 |
||
coredns_kubernetes_dns_programming_duration_seconds_bucket |
DNS编程耗时直方图bucket |
||
coredns_kubernetes_dns_programming_duration_seconds_count |
DNS编程耗时直方图count |
||
coredns_kubernetes_dns_programming_duration_seconds_sum |
DNS编程耗时直方图sum |
||
coredns_local_localhost_requests_total |
localhost请求数量 |
||
coredns_nodecache_setup_errors_total |
nodecache设置错误次数 |
||
coredns_dns_response_rcode_count_total |
每个Zone和Rcode的响应次数 |
||
coredns_dns_request_count_total |
DNS请求次数 |
||
coredns_dns_request_do_count_total |
设置了DO标志位的请求总数 |
||
coredns_dns_do_requests_total |
设置了DO标志位的请求总数 |
||
coredns_dns_request_type_count_total |
每个Zone和Type的请求次数 |
||
coredns_panics_total |
发生Panic的总数 |
||
coredns_plugin_enabled |
各插件的启用状态 |
||
coredns_reload_failed_total |
reload失败次数 |
||
serviceMonitor/monitoring/kube-apiserver/0 |
apiserver |
aggregator_unavailable_apiservice |
不可用的APIService数量 |
apiserver_admission_controller_admission_duration_seconds_bucket |
准入控制器(Admission Controller)的处理延时 |
||
apiserver_admission_webhook_admission_duration_seconds_bucket |
准入Webhook(Admission Webhook)的处理延时 |
||
apiserver_admission_webhook_admission_duration_seconds_count |
准入Webhook(Admission Webhook)的处理请求统计 |
||
apiserver_client_certificate_expiration_seconds_bucket |
证书剩余有效时长 |
||
apiserver_client_certificate_expiration_seconds_count |
证书剩余有效时长 |
||
apiserver_current_inflight_requests |
在处理读请求数量 |
||
apiserver_request_duration_seconds_bucket |
客户端对APIServer的访问时延 |
||
apiserver_request_total |
对APIServer不同请求的计数 |
||
go_goroutines |
协程数量 |
||
kubernetes_build_info |
构建信息 |
||
process_cpu_seconds_total |
进程CPU累计时长 |
||
process_resident_memory_bytes |
进程常驻内存集的大小 |
||
rest_client_requests_total |
REST请求数量 |
||
workqueue_adds_total |
工作队列Add次数 |
||
workqueue_depth |
工作队列深度 |
||
workqueue_queue_duration_seconds_bucket |
任务在工作队列中存在的时长 |
||
aggregator_unavailable_apiservice_total |
不可用的APIService总数 |
||
rest_client_request_duration_seconds_bucket |
REST请求耗时 |
||
serviceMonitor/monitoring/kubelet/0 |
kubelet |
kubelet_certificate_manager_client_expiration_renew_errors |
证书续期错误次数 |
kubelet_certificate_manager_client_ttl_seconds |
Kubelet客户端证书的TTL |
||
kubelet_cgroup_manager_duration_seconds_bucket |
控制组管理器操作的持续时间bucket |
||
kubelet_cgroup_manager_duration_seconds_count |
控制组管理器操作的持续时间count |
||
kubelet_node_config_error |
如果节点遇到与配置相关的错误,则此指标为true(1),否则为false(0) |
||
kubelet_node_name |
节点名称,值始终为1 |
||
kubelet_pleg_relist_duration_seconds_bucket |
PLEG中relist Pod耗时bucket |
||
kubelet_pleg_relist_duration_seconds_count |
PLEG中relist Pod耗时count |
||
kubelet_pleg_relist_interval_seconds_bucket |
PLEG中relist时间间隔bucket |
||
kubelet_pod_start_duration_seconds_count |
Pod启动时间count |
||
kubelet_pod_start_duration_seconds_bucket |
Pod启动时间bucket |
||
kubelet_pod_worker_duration_seconds_bucket |
同步单个Pod的持续时间。按操作类型细分:create、update、sync |
||
kubelet_running_containers |
当前运行的容器数 |
||
kubelet_running_pods |
当前运行的pod数 |
||
kubelet_runtime_operations_duration_seconds_bucket |
运行时操作耗时bucket |
||
kubelet_runtime_operations_errors_total |
按操作类型列出的运行时操作错误的累积数 |
||
kubelet_runtime_operations_total |
按操作类型列出的运行时操作的累积数 |
||
kubelet_volume_stats_available_bytes |
volume可用量 |
||
kubelet_volume_stats_capacity_bytes |
volume容量 |
||
kubelet_volume_stats_inodes |
volume inode总数 |
||
kubelet_volume_stats_inodes_used |
volume 已使用inode数量 |
||
kubelet_volume_stats_used_bytes |
volume已用量 |
||
storage_operation_duration_seconds_bucket |
存储操作耗时bucket |
||
storage_operation_duration_seconds_count |
存储操作耗时count |
||
storage_operation_errors_total |
存储操作错误次数 |
||
volume_manager_total_volumes |
Volume Manager中的volumes总数 |
||
rest_client_requests_total |
HTTP请求数,维度包含Status code、Method和Host |
||
rest_client_request_duration_seconds_bucket |
请求时延bucket |
||
process_resident_memory_bytes |
进程常驻内存集的大小 |
||
process_cpu_seconds_total |
进程CPU累计时长 |
||
go_goroutines |
协程个数 |
||
serviceMonitor/monitoring/kubelet/1 |
kubelet |
container_cpu_cfs_periods_total |
容器已经执行的CPU时间周期数 |
container_cpu_cfs_throttled_periods_total |
容器被限流的CPU时间周期数 |
||
container_cpu_cfs_throttled_seconds_total |
容器被限流的CPU时间 |
||
container_cpu_load_average_10s |
容器过去10秒内的CPU负载的平均值 |
||
container_cpu_usage_seconds_total |
容器在所有CPU内核上的累积占用时间 |
||
container_file_descriptors |
容器打开的文件描述符数量 |
||
container_fs_inodes_free |
文件系统的可用inode数量 |
||
container_fs_inodes_total |
文件系统的总计inode数量 |
||
container_fs_io_time_seconds_total |
磁盘/文件系统花费在 I/O 上的累计秒数 |
||
container_fs_limit_bytes |
容器可以使用的磁盘/文件系统总量 |
||
container_fs_read_seconds_total |
容器累积读取磁盘/文件系统数据的秒数 |
||
container_fs_reads_bytes_total |
容器累积读取磁盘/文件系统数据的总量 |
||
container_fs_reads_total |
容器已完成读取磁盘/文件系统的累积计数 |
||
container_fs_usage_bytes |
文件系统的使用量 |
||
container_fs_write_seconds_total |
容器累计写入磁盘/文件系统的秒数 |
||
container_fs_writes_bytes_total |
容器累积写入磁盘/文件系统数据的总量 |
||
container_fs_writes_total |
容器已完成写入磁盘/文件系统的累积计数 |
||
container_memory_cache |
容器总页缓存内存 |
||
container_memory_failcnt |
容器内存使用达到限制的次数 |
||
container_memory_max_usage_bytes |
容器历史最大内存使用量 |
||
container_memory_rss |
容器常驻内存集的大小 |
||
container_memory_swap |
容器虚拟内存使用量 |
||
container_memory_usage_bytes |
容器当前的内存使用量 |
||
container_memory_working_set_bytes |
容器工作集内存使用量 |
||
container_network_receive_bytes_total |
容器网络累积接收数据总量 |
||
container_network_receive_errors_total |
接收时遇到的错误累积计数 |
||
container_network_receive_packets_dropped_total |
接收时丢弃的数据包的累积计数 |
||
container_network_receive_packets_total |
接收数据包的累积计数 |
||
container_network_transmit_bytes_total |
容器网络累积传输数据总量 |
||
container_network_transmit_errors_total |
传输时遇到的错误累积计数 |
||
container_network_transmit_packets_dropped_total |
传输时丢弃的数据包的累积计数 |
||
container_network_transmit_packets_total |
传输数据包的累积计数 |
||
container_spec_cpu_quota |
容器分配的CPU配额 |
||
container_spec_memory_limit_bytes |
容器可以使用的总内存量限制 |
||
machine_cpu_cores |
逻辑CPU个数 |
||
machine_memory_bytes |
内存总数 |
||
serviceMonitor/monitoring/kube-state-metrics/0 |
kube-state-metrics-prom |
kube_cronjob_status_active |
当前活动的周期任务 |
kube_cronjob_info |
周期任务 |
||
kube_cronjob_labels |
周期任务标签 |
||
kube_configmap_info |
ConfigMap信息 |
||
kube_daemonset_created |
Daemonset创建时间 |
||
kube_daemonset_status_current_number_scheduled |
当前调度的DaemonSet数量 |
||
kube_daemonset_status_desired_number_scheduled |
期望调度的DaemonSet数量 |
||
kube_daemonset_status_number_available |
期望运行DaemonSet且已经至少运行一个Pod的节点数 |
||
kube_daemonset_status_number_misscheduled |
期望之外运行DaemonSet的节点数 |
||
kube_daemonset_status_number_ready |
期望运行DaemonSet且Pod已经就绪的节点数 |
||
kube_daemonset_status_number_unavailable |
期望运行DaemonSet但没有Pod运行的节点数 |
||
kube_daemonset_status_updated_number_scheduled |
正在运行已更新的DaemonSet的Pod的节点数 |
||
kube_deployment_created |
Deployment创建时间戳 |
||
kube_deployment_labels |
Deployment标签 |
||
kube_deployment_metadata_generation |
Deployment期望状态的generation |
||
kube_deployment_spec_replicas |
Deployment期望的副本数 |
||
kube_deployment_spec_strategy_rollingupdate_max_unavailable |
滚动升级时最大不可用副本数 |
||
kube_deployment_status_observed_generation |
Deployment控制器观察到的generation |
||
kube_deployment_status_replicas |
Deployment当前的副本数 |
||
kube_deployment_status_replicas_available |
Deployment可用的replicas数量 |
||
kube_deployment_status_replicas_ready |
Deployment已Ready的replicas数量 |
||
kube_deployment_status_replicas_unavailable |
Deployment不可用的replicas数量 |
||
kube_deployment_status_replicas_updated |
Deployment已更新的replicas数量 |
||
kube_job_info |
job信息 |
||
kube_namespace_labels |
命名空间标签 |
||
kube_node_labels |
节点标签 |
||
kube_node_info |
节点信息 |
||
kube_node_spec_taint |
节点污点信息 |
||
kube_node_spec_unschedulable |
节点是否可调度 |
||
kube_node_status_allocatable |
节点可分配资源 |
||
kube_node_status_capacity |
节点资源总量 |
||
kube_node_status_condition |
节点状态condition |
||
kube_node_volcano_oversubscription_status |
节点超卖状态 |
||
kube_persistentvolume_status_phase |
PV状态的phase |
||
kube_persistentvolumeclaim_status_phase |
PVC状态的phase |
||
kube_persistentvolume_info |
PV信息 |
||
kube_persistentvolumeclaim_info |
PVC信息 |
||
kube_pod_container_info |
Pod的容器信息 |
||
kube_pod_container_resource_limits |
容器的资源limits |
||
kube_pod_container_resource_requests |
容器的资源requests |
||
kube_pod_container_status_last_terminated_reason |
上次terminated的原因 |
||
kube_pod_container_status_ready |
容器的readiness是否成功 |
||
kube_pod_container_status_restarts_total |
容器重启次数 |
||
kube_pod_container_status_running |
容器是否running |
||
kube_pod_container_status_terminated |
容器是否terminated |
||
kube_pod_container_status_terminated_reason |
terminated容器的reason |
||
kube_pod_container_status_waiting |
容器是否waiting |
||
kube_pod_container_status_waiting_reason |
waiting容器的reason |
||
kube_pod_info |
Pod信息 |
||
kube_pod_labels |
Pod标签 |
||
kube_pod_owner |
Pod的Owner信息 |
||
kube_pod_status_phase |
Pod当前的phase |
||
kube_pod_status_ready |
Pod状态是否Ready |
||
kube_secret_info |
Secret信息 |
||
kube_statefulset_created |
StatefulSet的创建时间戳 |
||
kube_statefulset_labels |
StatefulSet的标签信息 |
||
kube_statefulset_metadata_generation |
StatefulSet期望状态的generation |
||
kube_statefulset_replicas |
StatefulSet期望的Pod数 |
||
kube_statefulset_status_observed_generation |
StatefulSet控制器观察到的generation |
||
kube_statefulset_status_replicas |
StatefulSet的replicas数量 |
||
kube_statefulset_status_replicas_ready |
StatefulSet已ready的replicas数量 |
||
kube_statefulset_status_replicas_updated |
StatefulSet已更新的replicas数量 |
||
kube_job_spec_completions |
成功完成所需Pod数量 |
||
kube_job_status_failed |
失败的Job |
||
kube_job_status_succeeded |
成功的Job |
||
kube_node_status_allocatable_cpu_cores |
节点可分配CPU核数 |
||
kube_node_status_allocatable_memory_bytes |
节点可分配内存 |
||
kube_replicaset_owner |
RS的所有者信息 |
||
kube_resourcequota |
ResourceQuota信息 |
||
kube_pod_spec_volumes_persistentvolumeclaims_info |
Pod关联的PVC信息 |
||
serviceMonitor/monitoring/prometheus-lightweight/0 |
prometheus-lightweight |
vm_persistentqueue_blocks_dropped_total |
发送队列Block丢弃数量 |
vm_persistentqueue_blocks_read_total |
发送队列Block读取数量 |
||
vm_persistentqueue_blocks_written_total |
发送队列Block写入数量 |
||
vm_persistentqueue_bytes_pending |
发送队列Pending字节数 |
||
vm_persistentqueue_bytes_read_total |
发送队列读取的字节数 |
||
vm_persistentqueue_bytes_written_total |
发送队列写入的字节数 |
||
vm_promscrape_active_scrapers |
活跃的采集数量 |
||
vm_promscrape_conn_read_errors_total |
采集读取错误次数 |
||
vm_promscrape_conn_write_errors_total |
采集写入错误次数 |
||
vm_promscrape_max_scrape_size_exceeded_errors_total |
采集大小超限错误次数 |
||
vm_promscrape_scrape_duration_seconds_sum |
采集耗时sum |
||
vm_promscrape_scrape_duration_seconds_count |
采集耗时count |
||
vm_promscrape_scrapes_total |
采集次数 |
||
vmagent_remotewrite_bytes_sent_total |
远程写发送字节数 |
||
vmagent_remotewrite_duration_seconds_sum |
远程写耗时sum |
||
vmagent_remotewrite_duration_seconds_count |
远程写耗时count |
||
vmagent_remotewrite_packets_dropped_total |
远程写丢弃包次数 |
||
vmagent_remotewrite_pending_data_bytes |
远程写Pending字节数 |
||
vmagent_remotewrite_requests_total |
远程写请求次数 |
||
vmagent_remotewrite_retries_count_total |
远程写重试次数 |
||
go_goroutines |
协程个数 |
||
serviceMonitor/monitoring/node-exporter/0 |
node-exporter |
node_boot_time_seconds |
节点开机时间 |
node_context_switches_total |
上下文切换次数 |
||
node_cpu_seconds_total |
节点CPU时间 |
||
node_disk_io_now |
当前运行的I/O数量 |
||
node_disk_io_time_seconds_total |
I/O总耗时 |
||
node_disk_io_time_weighted_seconds_total |
执行I/O所花费的加权秒数 |
||
node_disk_read_bytes_total |
读取成功的字节总数 |
||
node_disk_read_time_seconds_total |
读取花费的总时长 |
||
node_disk_reads_completed_total |
读取完成的次数 |
||
node_disk_write_time_seconds_total |
写入花费的总时长 |
||
node_disk_writes_completed_total |
写入完成的次数 |
||
node_disk_written_bytes_total |
写入成功的字节总数 |
||
node_docker_thinpool_data_space_available |
docker thinpool数据可用空间 |
||
node_docker_thinpool_metadata_space_available |
docker thinpool元数据可用空间 |
||
node_exporter_build_info |
NodeExporter构建信息 |
||
node_filefd_allocated |
已分配的文件描述符 |
||
node_filefd_maximum |
最大文件描述符 |
||
node_filesystem_avail_bytes |
挂载的文件系统可用空间 |
||
node_filesystem_device_error |
statfs获取文件信息失败 |
||
node_filesystem_free_bytes |
挂载的文件系统剩余空间 |
||
node_filesystem_readonly |
只读挂载的文件系统 |
||
node_filesystem_size_bytes |
挂载的文件系统占用空间 |
||
node_forks_total |
节点fork总数 |
||
node_intr_total |
节点中断总数 |
||
node_load1 |
节点1分钟CPU负载 |
||
node_load15 |
节点15分钟CPU负载 |
||
node_load5 |
节点5分钟CPU负载 |
||
node_memory_Buffers_bytes |
节点缓冲区的内存 |
||
node_memory_Cached_bytes |
节点页面缓存中的内存 |
||
node_memory_MemAvailable_bytes |
节点可用内存 |
||
node_memory_MemFree_bytes |
节点空闲内存 |
||
node_memory_MemTotal_bytes |
节点内存总量 |
||
node_network_receive_bytes_total |
累积接收数据总量 |
||
node_network_receive_drop_total |
接收时丢弃的累积计数 |
||
node_network_receive_errs_total |
接收时遇到的错误累积计数 |
||
node_network_receive_packets_total |
接收数据包的累积计数 |
||
node_network_transmit_bytes_total |
累积传输数据总量 |
||
node_network_transmit_drop_total |
传输时丢弃的累积计数 |
||
node_network_transmit_errs_total |
传输时遇到的错误累积计数 |
||
node_network_transmit_packets_total |
传输数据包的累积计数 |
||
node_procs_blocked |
当前blocked的进程 |
||
node_procs_running |
当前运行的进程 |
||
node_sockstat_sockets_used |
正在使用的套接字总量 |
||
node_sockstat_TCP_alloc |
已分配的TCP套接字数量 |
||
node_sockstat_TCP_inuse |
正在使用的TCP套接字数量 |
||
node_sockstat_TCP_orphan |
无主的TCP连接数 |
||
node_sockstat_TCP_tw |
等待关闭的TCP连接数 |
||
node_sockstat_UDPLITE_inuse |
UDP-Lite 套接字当前使用量 |
||
node_sockstat_UDP_inuse |
UDP 套接字当前使用量 |
||
node_sockstat_UDP_mem |
UDP 套接字缓冲区使用量 |
||
node_timex_offset_seconds |
时钟时间偏移 |
||
node_timex_sync_status |
节点时钟同步状态 |
||
node_uname_info |
节点uname信息 |
||
node_vmstat_oom_kill |
/proc/vmstat中的oom_kill |
||
process_cpu_seconds_total |
进程CPU累计时长 |
||
process_max_fds |
进程最大文件描述符 |
||
process_open_fds |
进程当前打开的文件描述符 |
||
process_resident_memory_bytes |
进程常驻内存集的大小 |
||
process_start_time_seconds |
进程启动时间 |
||
process_virtual_memory_bytes |
进程虚拟内存大小 |
||
process_virtual_memory_max_bytes |
进程虚拟内存最大大小 |
||
node_netstat_Tcp_ActiveOpens |
从CLOSED 状态直接转换到SYN-SENT 状态的TCP连接数 |
||
node_netstat_Tcp_PassiveOpens |
从LISTEN 状态直接转换到SYN-RCVD 状态的TCP连接数 |
||
node_netstat_Tcp_CurrEstab |
当前状态为ESTABLISHED 或CLOSE-WAIT 的TCP 连接数 |
||
node_vmstat_pgmajfault |
/proc/vmstat中的pgmajfault |
||
node_vmstat_pgpgout |
/proc/vmstat中的pgpgout |
||
node_vmstat_pgfault |
/proc/vmstat中的pgfault |
||
node_vmstat_pgpgin |
/proc/vmstat中的pgpgin |
||
node_processes_max_processes |
PID限制值 |
||
node_processes_pids |
PID个数 |
||
node_nf_conntrack_entries |
链接状态跟踪表分配的数量 |
||
node_nf_conntrack_entries_limit |
链接状态跟踪表总量 |
||
promhttp_metric_handler_requests_in_flight |
当前正在处理的metrics数量 |
||
go_goroutines |
NodeExporter协程个数 |
||
podMonitor/monitoring/nvidia-gpu-device-plugin/0 |
monitoring/nvidia-gpu-device-plugin |
cce_gpu_utilization |
gpu卡算力使用率 |
cce_gpu_memory_utilization |
gpu卡显存使用率 |
||
cce_gpu_encoder_utilization |
gpu卡编码使用率 |
||
cce_gpu_decoder_utilization |
gpu卡解码使用率 |
||
cce_gpu_utilization_process |
gpu各进程算力使用率 |
||
cce_gpu_memory_utilization_process |
gpu各进程显存使用率 |
||
cce_gpu_encoder_utilization_process |
gpu各进程编码使用率 |
||
cce_gpu_decoder_utilization_process |
gpu各进程解码使用率 |
||
cce_gpu_memory_used |
gpu显存使用量 |
||
cce_gpu_memory_total |
gpu显存总量 |
||
cce_gpu_memory_free |
gpu显存空闲量 |
||
cce_gpu_bar1_memory_used |
gpu bar1 内存使用量 |
||
cce_gpu_bar1_memory_total |
gpu bar1 内存总量 |
||
cce_gpu_clock |
gpu时钟频率 |
||
cce_gpu_memory_clock |
gpu显存频率 |
||
cce_gpu_graphics_clock |
gpu图形处理器频率 |
||
cce_gpu_video_clock |
gpu视频处理器频率 |
||
cce_gpu_temperature |
gpu温度 |
||
cce_gpu_power_usage |
gpu功率 |
||
cce_gpu_total_energy_consumption |
gpu总能耗 |
||
cce_gpu_pcie_link_bandwidth |
gpu pcie 带宽 |
||
cce_gpu_nvlink_bandwidth |
gpu nvlink 带宽 |
||
cce_gpu_pcie_throughput_rx |
gpu pcie 接收带宽 |
||
cce_gpu_pcie_throughput_tx |
gpu pcie 发送带宽 |
||
cce_gpu_nvlink_utilization_counter_rx |
gpu nvlink 接收带宽 |
||
cce_gpu_nvlink_utilization_counter_tx |
gpu nvlink 发送带宽 |
||
cce_gpu_retired_pages_sbe |
gpu 单比特错误隔离页数量 |
||
cce_gpu_retired_pages_dbe |
gpu 双比特错误隔离页数量 |
||
xgpu_memory_total |
xgpu显存总量 |
||
xgpu_memory_used |
xgpu显存使用量 |
||
xgpu_core_percentage_total |
xgpu算力总量 |
||
xgpu_core_percentage_used |
xgpu算力使用量 |
||
gpu_schedule_policy |
gpu模式分成0、1、2三种:0为显存隔离算力共享模式;1为显存算力隔离模式;2为默认模式表示当前卡还没被用于xgpu设备分配。 |
||
xgpu_device_health |
xgpu设备的健康情况。0表示xgpu设备为健康状态,1表示为非健康状态。 |
||
serviceMonitor/monitoring/prometheus-server/0 |
prometheus-server |
prometheus_build_info |
Prometheus构建信息 |
prometheus_engine_query_duration_seconds |
查询时间 |
||
prometheus_engine_query_duration_seconds_count |
查询次数 |
||
prometheus_sd_discovered_targets |
各个 job 发现的采集目标数 |
||
prometheus_remote_storage_bytes_total |
发送字节数 |
||
prometheus_remote_storage_enqueue_retries_total |
入队列重试次数 |
||
prometheus_remote_storage_highest_timestamp_in_seconds |
存储在WAL中的任何样本的最大时间戳 |
||
prometheus_remote_storage_queue_highest_sent_timestamp_seconds |
远程写入成功发送的最大时间戳 |
||
prometheus_remote_storage_samples_dropped_total |
远程写丢弃sample数量 |
||
prometheus_remote_storage_samples_failed_total |
远程写失败sample数量 |
||
prometheus_remote_storage_samples_in_total |
远程写写入sample数量 |
||
prometheus_remote_storage_samples_pending |
远程写pending sample 数量 |
||
prometheus_remote_storage_samples_retried_total |
远程写重试sample数量 |
||
prometheus_remote_storage_samples_total |
远程写sample总数 |
||
prometheus_remote_storage_shard_capacity |
用于并行发送到远程存储的队列中每个分片的容量 |
||
prometheus_remote_storage_shards |
当前用于并行发送到远程存储的分片数 |
||
prometheus_remote_storage_shards_desired |
分片队列期望基于输入样本和输出样本的比率运行的分片数 |
||
prometheus_remote_storage_shards_max |
可用于并行发送到远程存储的分片数的最大值 |
||
prometheus_remote_storage_shards_min |
可用于并行发送到远程存储的分片数的最小值 |
||
prometheus_tsdb_wal_segment_current |
TSDB当前正在写入的WAL段索引 |
||
prometheus_tsdb_head_chunks |
head中保存的chunk数量 |
||
prometheus_tsdb_head_series |
head中保存的series数量 |
||
prometheus_tsdb_head_samples_appended_total |
head中添加的samples数量 |
||
prometheus_wal_watcher_current_segment |
每个远程写入实例当前正在读取的WAL段文件 |
||
prometheus_target_interval_length_seconds |
抓取时间间隔 |
||
prometheus_target_interval_length_seconds_count |
抓取时间间隔count |
||
prometheus_target_interval_length_seconds_sum |
抓取时间间隔sum |
||
prometheus_target_scrapes_exceeded_body_size_limit_total |
采集body大小超限次数 |
||
prometheus_target_scrapes_exceeded_sample_limit_total |
采集sample超限次数 |
||
prometheus_target_scrapes_sample_duplicate_timestamp_total |
时间戳重复Samples数量 |
||
prometheus_target_scrapes_sample_out_of_bounds_total |
时间戳超限Samples数量 |
||
prometheus_target_scrapes_sample_out_of_order_total |
乱序Samples数量 |
||
prometheus_target_sync_length_seconds |
同步scrape pool的间隔 |
||
prometheus_target_sync_length_seconds_count |
同步scrape pool的间隔count |
||
prometheus_target_sync_length_seconds_sum |
同步scrape pool的间隔sum |
||
promhttp_metric_handler_requests_in_flight |
当前正在处理的metrics数量 |
||
promhttp_metric_handler_requests_total |
metrics处理次数 |
||
go_goroutines |
协程个数 |
||
podMonitor/monitoring/virtual-kubelet-pods/0 |
monitoring/virtual-kubelet-pods |
container_cpu_load_average_10s |
容器过去10秒内的CPU负载的平均值 |
container_cpu_system_seconds_total |
容器系统CPU总时长 |
||
container_cpu_usage_seconds_total |
容器在所有CPU内核上的累积占用时间 |
||
container_cpu_user_seconds_total |
容器用户CPU总时长 |
||
container_cpu_cfs_periods_total |
容器已经执行的CPU时间周期数 |
||
container_cpu_cfs_throttled_periods_total |
容器被限流的CPU时间周期数 |
||
container_cpu_cfs_throttled_seconds_total |
容器被限流的CPU时间 |
||
container_fs_inodes_free |
文件系统的可用inode数量 |
||
container_fs_usage_bytes |
文件系统的使用量 |
||
container_fs_inodes_total |
文件系统的总计inode数量 |
||
container_fs_io_current |
磁盘/文件系统当前正在进行的 I/O 数量 |
||
container_fs_io_time_seconds_total |
磁盘/文件系统花费在 I/O 上的累计秒数 |
||
container_fs_io_time_weighted_seconds_total |
磁盘/文件系统累积加权 I/O 时间 |
||
container_fs_limit_bytes |
容器可以使用的磁盘/文件系统总量 |
||
container_fs_reads_bytes_total |
容器累积读取磁盘/文件系统数据的总量 |
||
container_fs_read_seconds_total |
容器累积读取磁盘/文件系统数据的秒数 |
||
container_fs_reads_merged_total |
容器合并读取磁盘/文件系统的累积计数 |
||
container_fs_reads_total |
容器已完成读取磁盘/文件系统的累积计数 |
||
container_fs_sector_reads_total |
容器已完成扇区读取磁盘/文件系统的累积计数 |
||
container_fs_sector_writes_total |
容器已完成扇区写入磁盘/文件系统的累积计数 |
||
container_fs_writes_bytes_total |
容器累积写入磁盘/文件系统数据的总量 |
||
container_fs_write_seconds_total |
容器累计写入磁盘/文件系统的秒数 |
||
container_fs_writes_merged_total |
容器合并写入磁盘/文件系统的累积计数 |
||
container_fs_writes_total |
容器已完成写入磁盘/文件系统的累积计数 |
||
container_blkio_device_usage_total |
容器区分IO操作对磁盘的使用总量 |
||
container_memory_failures_total |
容器内存分配失败的累积计数 |
||
container_memory_failcnt |
容器内存使用达到限制的次数 |
||
container_memory_cache |
容器总页缓存内存 |
||
container_memory_mapped_file |
容器内存映射文件的大小 |
||
container_memory_max_usage_bytes |
容器历史最大内存使用量 |
||
container_memory_rss |
容器常驻内存集的大小 |
||
container_memory_swap |
容器虚拟内存使用量 |
||
container_memory_usage_bytes |
容器当前的内存使用量 |
||
container_memory_working_set_bytes |
容器工作集内存使用量 |
||
container_network_receive_bytes_total |
容器网络累积接收数据总量 |
||
container_network_receive_errors_total |
接收时遇到的错误累积计数 |
||
container_network_receive_packets_dropped_total |
接收时丢弃的数据包的累积计数 |
||
container_network_receive_packets_total |
接收数据包的累积计数 |
||
container_network_transmit_bytes_total |
容器网络累积传输数据总量 |
||
container_network_transmit_errors_total |
传输时遇到的错误累积计数 |
||
container_network_transmit_packets_dropped_total |
传输时丢弃的数据包的累积计数 |
||
container_network_transmit_packets_total |
传输数据包的累积计数 |
||
container_processes |
容器当前运行的进程数 |
||
container_sockets |
容器当前打开套接字的个数 |
||
container_file_descriptors |
容器当前打开文件描述符的个数 |
||
container_threads |
容器内当前运行的线程数 |
||
container_threads_max |
容器内允许运行的最大线程数 |
||
container_ulimits_soft |
容器内1号进程的软 ulimit 值。如果为-1,则无限制,优先级和nice除外 |
||
container_tasks_state |
处于给定状态的任务数(sleeping, running, stopped, uninterruptible, or ioawaiting) |
||
container_spec_cpu_period |
容器分配的CPU周期 |
||
container_spec_cpu_shares |
容器分配的CPU份额 |
||
container_spec_cpu_quota |
容器分配的CPU配额 |
||
container_spec_memory_limit_bytes |
容器可以使用的总内存量限制 |
||
container_spec_memory_reservation_limit_bytes |
容器可以使用的预留内存限制 |
||
container_spec_memory_swap_limit_bytes |
容器可以使用的虚拟内存限制 |
||
container_start_time_seconds |
容器已经运行的时间 |
||
container_last_seen |
最近一次监控采集器感知到容器的时间 |
||
container_accelerator_memory_used_bytes |
容器正在使用的GPU加速卡内存量 |
||
container_accelerator_memory_total_bytes |
总GPU加速卡可用内存量 |
||
container_accelerator_duty_cycle |
GPU加速卡实际运行时间百分比 |
||
podMonitor/monitoring/everest-csi-controller/0 |
monitoring/everest-csi-controller |
everest_action_result_total |
action结果数量 |
everest_function_duration_seconds_bucket |
action耗时直方图bucket |
||
everest_function_duration_seconds_count |
action耗时直方图count |
||
everest_function_duration_seconds_sum |
action耗时直方图sum |
||
everest_function_duration_quantile_seconds |
action所需的时间分位数 |
||
node_volume_read_completed_total |
读操作完成次数 |
||
node_volume_read_merged_total |
读操作merged次数 |
||
node_volume_read_bytes_total |
扇区读字节总数 |
||
node_volume_read_time_milliseconds_total |
读操作总耗时 |
||
node_volume_write_completed_total |
写操作完成次数 |
||
node_volume_write_merged_total |
写操作merged次数 |
||
node_volume_write_bytes_total |
扇区写字节总数 |
||
node_volume_write_time_milliseconds_total |
写操作总耗时 |
||
node_volume_io_now |
当前正在进行的I/O次数 |
||
node_volume_io_time_seconds_total |
IO操作总耗时 |
||
node_volume_capacity_bytes_available |
可用容量 |
||
node_volume_capacity_bytes_total |
总容量 |
||
node_volume_capacity_bytes_used |
已用容量 |
||
node_volume_inodes_available |
可用inode |
||
node_volume_inodes_total |
总inode |
||
node_volume_inodes_used |
已用inode |
||
node_volume_read_transmissions_total |
读取传输次数 |
||
node_volume_read_timeouts_total |
读取超时次数 |
||
node_volume_read_sent_bytes_total |
读取字节数 |
||
node_volume_read_queue_time_milliseconds_total |
读取队列等待耗时 |
||
node_volume_read_rtt_time_milliseconds_total |
读取rtt时长 |
||
node_volume_write_transmissions_total |
写入传输次数 |
||
node_volume_write_timeouts_total |
写入超时次数 |
||
node_volume_write_queue_time_milliseconds_total |
写入队列等待耗时 |
||
node_volume_write_rtt_time_milliseconds_total |
写入rtt时长 |
||
node_volume_localvolume_stats_capacity_bytes |
本地存储容量 |
||
node_volume_localvolume_stats_available_bytes |
本地存储可用量 |
||
node_volume_localvolume_stats_used_bytes |
本地存储已用量 |
||
node_volume_localvolume_stats_inodes |
本地存储inodes数量 |
||
node_volume_localvolume_stats_inodes_used |
本地存储inodes已用量 |
||
podMonitor/monitoring/nginx-ingress-controller/0 |
monitoring/nginx-ingress-controller |
nginx_ingress_controller_bytes_sent |
发送到客户端的字节数 |
nginx_ingress_controller_connect_duration_seconds |
与上游服务器建立连接所花费的时间 |
||
nginx_ingress_controller_header_duration_seconds |
从上游服务器接收第一个报头所花费的时间 |
||
nginx_ingress_controller_ingress_upstream_latency_seconds |
上行服务延迟 |
||
nginx_ingress_controller_request_duration_seconds |
请求处理时间(以毫秒为单位) |
||
nginx_ingress_controller_request_size |
请求长度(包括请求行、请求头和请求体长度) |
||
nginx_ingress_controller_requests |
Nginx Ingress Controller自启动以来处理的所有HTTP请求的总数 |
||
nginx_ingress_controller_response_duration_seconds |
从上游服务器接收响应所花费的时间 |
||
nginx_ingress_controller_response_size |
响应长度(包括请求行、头和请求体长度) |
||
nginx_ingress_controller_nginx_process_connections |
当前处于活动、读取、写入、等待状态,每种状态各自的客户端连接数 |
||
nginx_ingress_controller_nginx_process_connections_total |
自启动以来处于接受、已处理状态,每种状态各自的客户端连接数 |
||
nginx_ingress_controller_nginx_process_cpu_seconds_total |
Nginx进程消耗的CPU时间总量(以秒为单位) |
||
nginx_ingress_controller_nginx_process_num_procs |
进程数 |
||
nginx_ingress_controller_nginx_process_oldest_start_time_seconds |
自1970/01/01以来的开始时间(以秒为单位) |
||
nginx_ingress_controller_nginx_process_read_bytes_total |
读取的字节数 |
||
nginx_ingress_controller_nginx_process_requests_total |
自启动以来,Nginx处理的请求总数 |
||
nginx_ingress_controller_nginx_process_resident_memory_bytes |
进程的常驻内存使用量,即实际占用的物理内存大小 |
||
nginx_ingress_controller_nginx_process_virtual_memory_bytes |
进程的虚拟内存使用量,即分配给进程的总内存大小,包括实际物理内存和虚拟交换空间 |
||
nginx_ingress_controller_nginx_process_write_bytes_total |
Nginx进程向磁盘或其他长期存储设备写入的数据量 |
||
nginx_ingress_controller_build_info |
记录Nginx Ingress Controller的构建信息,包括版本号、编译时间等 |
||
nginx_ingress_controller_check_success |
Nginx Ingress Controller的健康检查结果。1为正常,0为异常 |
||
nginx_ingress_controller_config_hash |
运行配置的哈希值 |
||
nginx_ingress_controller_config_last_reload_successful |
Nginx Ingress Controller的配置重新加载是否成功 |
||
nginx_ingress_controller_config_last_reload_successful_timestamp_seconds |
Nginx Ingress Controller最后一次配置重新加载是否成功的时间戳 |
||
nginx_ingress_controller_ssl_certificate_info |
Nginx Ingress Controller的证书信息 |
||
nginx_ingress_controller_success |
Nginx Ingress Controller的重新加载操作的累计次数 |
||
nginx_ingress_controller_orphan_ingress |
入口孤立状态,1 表示孤立。0 表示正常。“namespace”为标识入口命名空间的字符串,“ingress”表示入口名称,“type”表示孤立类型 为“no-service”'或 “no-endpoint”。 |
||
nginx_ingress_controller_admission_config_size |
Admission准入控制器的配置大小 |
||
nginx_ingress_controller_admission_render_duration |
Admission准入控制器配置渲染所花费的时间 |
||
nginx_ingress_controller_admission_render_ingresses |
Admission准入控制器配置渲染的入口长度 |
||
nginx_ingress_controller_admission_roundtrip_duration |
Admission准入控制器处理新事件所花费的时间 |
||
nginx_ingress_controller_admission_tested_duration |
Admission准入控制器测试所花费的时间 |
||
nginx_ingress_controller_admission_tested_ingresses |
Admission准入控制器测试的入口长度 |