基础指标:容器指标
介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。
Target名称 | Job名称 | 指标 | 指标含义 |
|---|---|---|---|
| coredns和node-local-dns | coredns_build_info | CoreDNS的构建信息。 |
coredns_cache_entries | CoreDNS缓存中元素的数量。 | ||
coredns_cache_size | CoreDNS缓存大小。 | ||
coredns_cache_hits_total | CoreDNS缓存命中总数。 | ||
coredns_cache_misses_total | CoreDNS缓存未命中总数。 | ||
coredns_cache_requests_total | 不同维度下CoreDNS解析请求的总计数。 | ||
coredns_dns_request_duration_seconds_bucket | CoreDNS请求时延。 | ||
coredns_dns_request_duration_seconds_count | CoreDNS请求处理时间(秒)计数。 | ||
coredns_dns_request_duration_seconds_sum | CoreDNS请求处理时间(秒)总和。 | ||
coredns_dns_request_size_bytes_bucket | CoreDNS请求字节数。 | ||
coredns_dns_request_size_bytes_count | CoreDNS请求大小(字节)计数。 | ||
coredns_dns_request_size_bytes_sum | CoreDNS请求大小(字节)总和。 | ||
coredns_dns_requests_total | CoreDNS请求的总数。 | ||
coredns_dns_response_size_bytes_bucket | CoreDNS返回字节数。 | ||
coredns_dns_response_size_bytes_count | CoreDNS响应大小(字节)计数。 | ||
coredns_dns_response_size_bytes_sum | CoreDNS响应大小(字节)总和。 | ||
coredns_dns_responses_total | CoreDNS响应码的总数。 | ||
coredns_forward_conn_cache_hits_total | 每个协议和数据流的缓存命中总数。 | ||
coredns_forward_conn_cache_misses_total | 每个协议和数据流的缓存未命中总数。 | ||
coredns_forward_healthcheck_broken_total | 转发健康检查失败总数。 | ||
coredns_forward_healthcheck_failures_total | 转发健康检查故障总数。 | ||
coredns_forward_max_concurrent_rejects_total | 并发超限拒绝总数。 | ||
coredns_forward_request_duration_seconds_bucket | CoreDNS转发请求时延。 | ||
coredns_forward_request_duration_seconds_count | CoreDNS转发请求持续时间(秒)计数。 | ||
coredns_forward_request_duration_seconds_sum | CoreDNS转发请求持续时间(秒)总和。 | ||
coredns_forward_requests_total | 每个数据流的请求总数。 | ||
coredns_forward_responses_total | 每个数据流的响应总数。 | ||
coredns_health_request_duration_seconds_bucket | CoreDNS健康检查请求时延。 | ||
coredns_health_request_duration_seconds_count | CoreDNS健康检查请求持续时间(秒)计数。 | ||
coredns_health_request_duration_seconds_sum | CoreDNS健康检查请求持续时间(秒)总和。 | ||
coredns_health_request_failures_total | CoreDNS健康检查请求失败总数。 | ||
coredns_hosts_reload_timestamp_seconds | CoreDNS最近一次加载host文件的时间戳。 | ||
coredns_kubernetes_dns_programming_duration_seconds_bucket | DNS编程时延。 | ||
coredns_kubernetes_dns_programming_duration_seconds_count | DNS编程持续时间(秒)计数。 | ||
coredns_kubernetes_dns_programming_duration_seconds_sum | DNS编程持续时间(秒)总和。 | ||
coredns_local_localhost_requests_total | CoreDNS处理的localhost请求总数量。 | ||
coredns_nodecache_setup_errors_total | 节点缓存插件设置错误总数。 | ||
coredns_dns_response_rcode_count_total | 不同响应码个数的累计值。 | ||
coredns_dns_request_count_total | 记录所有请求查询的累计值。 | ||
coredns_dns_request_do_count_total | 设置了DO标志位的请求次数累计值。 | ||
coredns_dns_do_requests_total | 设置了DO标志位的请求总数。 | ||
coredns_dns_request_type_count_total | 每种类型的请求累计值。 | ||
coredns_panics_total | CoreDNS发生异常退出的总数。 | ||
coredns_plugin_enabled | CoreDNS各插件的启用状态。 | ||
coredns_reload_failed_total | 重新加载配置文件失败的总数。 | ||
serviceMonitor/monitoring/kube-apiserver/0 | apiserver | aggregator_unavailable_apiservice | 不可用的apiservice数量。 |
apiserver_admission_controller_admission_duration_seconds_bucket | 准入控制器的处理延时。 | ||
apiserver_admission_webhook_admission_duration_seconds_bucket | 准入Webhook的处理延时。 | ||
apiserver_admission_webhook_admission_duration_seconds_count | 准入Webhook的处理请求统计。 | ||
apiserver_client_certificate_expiration_seconds_bucket | 证书剩余有效时长。 | ||
apiserver_client_certificate_expiration_seconds_count | 证书剩余有效时长。 | ||
apiserver_current_inflight_requests | 在处理读请求数量。 | ||
apiserver_request_duration_seconds_bucket | 客户端对apiserver的访问时延。 | ||
apiserver_request_total | apiserver请求数按照返回码等维度的总计数。 | ||
go_goroutines | 当前时间goroutines个数。 | ||
kubernetes_build_info | 构建信息。 | ||
process_cpu_seconds_total | 进程占用CPU累计时长。 | ||
process_resident_memory_bytes | 常驻内存集大小。 | ||
rest_client_requests_total | 请求apiserver的总数(按照返回码code和请求类型method统计)。 | ||
workqueue_adds_total | 工作队列增加总数。 | ||
workqueue_depth | 当前工作队列深度。 | ||
workqueue_queue_duration_seconds_bucket | 任务在当前队列中的停留时间。 | ||
aggregator_unavailable_apiservice_total | 不可用的apiservice总数。 | ||
rest_client_request_duration_seconds_bucket | 请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。 | ||
serviceMonitor/monitoring/kubelet/0 | kubelet | kubelet_certificate_manager_client_expiration_renew_errors | 证书续期错误次数。 |
kubelet_certificate_manager_client_ttl_seconds | Kubelet客户端证书的TTL。 | ||
kubelet_cgroup_manager_duration_seconds_bucket | 销毁和更新操作的耗时分布情况。 | ||
kubelet_cgroup_manager_duration_seconds_count | 销毁和更新的数量。 | ||
kubelet_node_config_error | 如果节点遇到与配置相关的错误,则此指标为true(1),否则为false(0)。 | ||
kubelet_node_name | 节点名称,值始终为1。 | ||
kubelet_pleg_relist_duration_seconds_bucket | PLEG relist pod耗时的分布情况。 | ||
kubelet_pleg_relist_duration_seconds_count | PLEG relist pod不同耗时的数量。 | ||
kubelet_pleg_relist_interval_seconds_bucket | PLEG relist间隔的分布情况。 | ||
kubelet_pod_start_duration_seconds_count | 进行过pod启动的数量。 | ||
kubelet_pod_start_duration_seconds_bucket | pod启动的耗时分布情况。 | ||
kubelet_pod_worker_duration_seconds_bucket | 同步单个Pod的持续时间。 | ||
kubelet_running_containers | 当前运行的容器数。 | ||
kubelet_running_pods | 当前运行的pod数。 | ||
kubelet_runtime_operations_duration_seconds_bucket | 不同操作的累计操作耗时分布情况。 | ||
kubelet_runtime_operations_errors_total | 不同操作的累计操作失败的总数量。 | ||
kubelet_runtime_operations_total | 运行过程中不同的操作类型的累计操作总数。 | ||
kubelet_volume_stats_available_bytes | 卷中可用字节数。 | ||
kubelet_volume_stats_capacity_bytes | 卷的容量(以字节为单位)。 | ||
kubelet_volume_stats_inodes | 卷中的最大inode数。 | ||
kubelet_volume_stats_inodes_used | 卷中已使用的inode数。 | ||
kubelet_volume_stats_used_bytes | 卷中已使用的字节数。 | ||
storage_operation_duration_seconds_bucket | 存储操作的持续时间。 | ||
storage_operation_duration_seconds_count | 存储操作的操作次数。 | ||
storage_operation_errors_total | 存储操作的错误总数。 | ||
volume_manager_total_volumes | 卷管理中的卷数量。 | ||
rest_client_requests_total | 请求apiserver的总数(按照返回码code和请求类型method统计)。 | ||
rest_client_request_duration_seconds_bucket | 请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。 | ||
process_resident_memory_bytes | 常驻内存集大小。 | ||
process_cpu_seconds_total | 进程占用CPU累计时长。 | ||
go_goroutines | 当前时间goroutines个数。 | ||
serviceMonitor/monitoring/kubelet/1 | kubelet | container_cpu_cfs_periods_total | 容器经过强制限制的周期间隔总数。 |
container_cpu_cfs_throttled_periods_total | 容器限制周期间隔总数。 | ||
container_cpu_cfs_throttled_seconds_total | 容器被限流的CPU总时间。 | ||
container_cpu_load_average_10s | 容器过去10秒内的CPU负载的平均值。 | ||
container_cpu_usage_seconds_total | 容器CPU总使用量。 | ||
container_file_descriptors | 容器打开的文件描述符数量。 | ||
container_fs_inodes_free | 文件系统的可用inode区数量。 | ||
container_fs_inodes_total | 文件系统的总计inode区总数量。 | ||
container_fs_io_time_seconds_total | 磁盘/文件系统花费在I/O上的累计时间。 | ||
container_fs_limit_bytes | 容器可以使用的磁盘/文件系统总量。 | ||
container_fs_read_seconds_total | 容器累积读取磁盘/文件系统数据的总时间。 | ||
container_fs_reads_bytes_total | 容器累积读取磁盘/文件系统数据的总量。 | ||
container_fs_reads_total | 容器读取磁盘/文件系统的累积计数。 | ||
container_fs_usage_bytes | 文件系统的使用量。 | ||
container_fs_write_seconds_total | 容器累计写入磁盘/文件系统的总时间。 | ||
container_fs_writes_bytes_total | 容器累积写入磁盘/文件系统数据的总量。 | ||
container_fs_writes_total | 容器写入磁盘/文件系统的累积总数。 | ||
container_memory_cache | 容器总页缓存内存。 | ||
container_memory_failcnt | 容器内存使用达到限制的次数。 | ||
container_memory_max_usage_bytes | 容器最大内存使用量。 | ||
container_memory_rss | 容器常驻内存集的大小。 | ||
container_memory_swap | 容器交换内存使用量。 | ||
container_memory_usage_bytes | 容器当前的内存使用量。 | ||
container_memory_working_set_bytes | 容器工作集内存使用量。 | ||
container_network_receive_bytes_total | 容器网络累积接收数据总量。 | ||
container_network_receive_errors_total | 容器网络接收时遇到的错误累积计数。 | ||
container_network_receive_packets_dropped_total | 容器网络接收时丢弃的数据包的累积计数。 | ||
container_network_receive_packets_total | 容器网络接收数据包的累积计数。 | ||
container_network_transmit_bytes_total | 容器网络累积传输数据总量。 | ||
container_network_transmit_errors_total | 容器网络传输时遇到的错误累积计数。 | ||
container_network_transmit_packets_dropped_total | 容器网络传输时丢弃的数据包的累积计数。 | ||
container_network_transmit_packets_total | 容器网络传输数据包的累积计数。 | ||
container_spec_cpu_quota | 容器分配的CPU配额。 | ||
container_spec_memory_limit_bytes | 容器可以使用的总内存量限制。 | ||
machine_cpu_cores | 物理机或虚拟机中的CPU核心数量。 | ||
machine_memory_bytes | 当前物理机或虚拟机的内存总数。 | ||
serviceMonitor/monitoring/kube-state-metrics/0 | kube-state-metrics-prom | kube_cronjob_status_active | 当前活动的周期任务。 |
kube_cronjob_info | 周期任务。 | ||
kube_cronjob_labels | 周期任务标签。 | ||
kube_configmap_info | ConfigMap信息。 | ||
kube_daemonset_created | Daemonset创建时间。 | ||
kube_daemonset_status_current_number_scheduled | 当前调度的DaemonSet数量。 | ||
kube_daemonset_status_desired_number_scheduled | 期望调度的DaemonSet数量。 | ||
kube_daemonset_status_number_available | 期望运行DaemonSet且已经至少运行一个Pod的节点数。 | ||
kube_daemonset_status_number_misscheduled | 期望之外运行DaemonSet的节点数。 | ||
kube_daemonset_status_number_ready | 期望运行DaemonSet且Pod已经就绪的节点数。 | ||
kube_daemonset_status_number_unavailable | 期望运行DaemonSet但没有Pod运行的节点数。 | ||
kube_daemonset_status_updated_number_scheduled | 正在运行已更新的DaemonSet的Pod的节点数。 | ||
kube_deployment_created | Deployment创建时间戳。 | ||
kube_deployment_labels | Deployment标签。 | ||
kube_deployment_metadata_generation | Deployment期望状态的代数。 | ||
kube_deployment_spec_replicas | Deployment期望的副本数。 | ||
kube_deployment_spec_strategy_rollingupdate_max_unavailable | 滚动升级时最大不可用副本数。 | ||
kube_deployment_status_observed_generation | Deployment控制器观察到的代数。 | ||
kube_deployment_status_replicas | Deployment当前的副本数。 | ||
kube_deployment_status_replicas_available | Deployment可用的副本数量。 | ||
kube_deployment_status_replicas_ready | Deployment已就绪的副本数量。 | ||
kube_deployment_status_replicas_unavailable | Deployment不可用的副本数量。 | ||
kube_deployment_status_replicas_updated | Deployment已更新的副本数量。 | ||
kube_job_info | Job信息。 | ||
kube_namespace_labels | 命名空间标签。 | ||
kube_node_labels | 节点标签。 | ||
kube_node_info | 节点信息。 | ||
kube_node_spec_taint | 节点污点信息。 | ||
kube_node_spec_unschedulable | 节点是否可调度。 | ||
kube_node_status_allocatable | 节点可分配资源。 | ||
kube_node_status_capacity | 节点资源总量。 | ||
kube_node_status_condition | 节点状态条件。 | ||
kube_node_volcano_oversubscription_status | 节点超卖状态。 | ||
kube_persistentvolume_status_phase | PV的状态。 | ||
kube_persistentvolumeclaim_status_phase | PVC的状态。 | ||
kube_persistentvolume_info | PV信息。 | ||
kube_persistentvolumeclaim_info | PVC信息。 | ||
kube_pod_container_info | Pod中的容器信息。 | ||
kube_pod_container_resource_limits | 容器请求的限制资源数。 | ||
kube_pod_container_resource_requests | 容器请求的请求资源数。 | ||
kube_pod_container_status_last_terminated_reason | 容器最后终止原因。 | ||
kube_pod_container_status_ready | 容器就绪状态。 | ||
kube_pod_container_status_restarts_total | 容器重启总数。 | ||
kube_pod_container_status_running | 容器当前是否在运行中的状态。 | ||
kube_pod_container_status_terminated | 容器是否处在终止状态。 | ||
kube_pod_container_status_terminated_reason | 容器终止原因。 | ||
kube_pod_container_status_waiting | 容器等待状态。 | ||
kube_pod_container_status_waiting_reason | 容器等待原因。 | ||
kube_pod_info | Pod信息。 | ||
kube_pod_labels | Pod标签。 | ||
kube_pod_owner | Pod所属对象。 | ||
kube_pod_status_phase | Pod当前的阶段。 | ||
kube_pod_status_ready | Pod就绪状态。 | ||
kube_secret_info | Secret信息。 | ||
kube_statefulset_created | StatefulSet的创建时间戳。 | ||
kube_statefulset_labels | StatefulSet的标签信息。 | ||
kube_statefulset_metadata_generation | StatefulSet元数据生成代数。 | ||
kube_statefulset_replicas | StatefulSet期望的Pod数。 | ||
kube_statefulset_status_observed_generation | StatefulSet控制器观察到的生成。 | ||
kube_statefulset_status_replicas | StatefulSet中有状态的副本数。 | ||
kube_statefulset_status_replicas_ready | StatefulSet中就绪状态的副本数。 | ||
kube_statefulset_status_replicas_updated | StatefulSet中更新状态的副本数。 | ||
kube_job_spec_completions | 成功完成所需Pod数量。 | ||
kube_job_status_failed | 失败的Job。 | ||
kube_job_status_succeeded | 成功的Job。 | ||
kube_node_status_allocatable_cpu_cores | 节点可分配CPU核数。 | ||
kube_node_status_allocatable_memory_bytes | 节点可分配内存。 | ||
kube_replicaset_owner | 副本集所属对象。 | ||
kube_resourcequota | 资源配额。 | ||
kube_pod_spec_volumes_persistentvolumeclaims_info | Pod关联的PVC信息。 | ||
serviceMonitor/monitoring/prometheus-lightweight/0 | prometheus-lightweight | vm_persistentqueue_blocks_dropped_total | 发送队列Block丢弃总数量。 |
vm_persistentqueue_blocks_read_total | 发送队列Block读取总数量。 | ||
vm_persistentqueue_blocks_written_total | 发送队列Block写入总数量。 | ||
vm_persistentqueue_bytes_pending | 发送队列Pending字节数。 | ||
vm_persistentqueue_bytes_read_total | 发送队列读取的字节总数。 | ||
vm_persistentqueue_bytes_written_total | 发送队列写入的字节总数。 | ||
vm_promscrape_active_scrapers | 采集的分片数量。 | ||
vm_promscrape_conn_read_errors_total | 采集读取错误总数。 | ||
vm_promscrape_conn_write_errors_total | 采集写入错误总数。 | ||
vm_promscrape_max_scrape_size_exceeded_errors_total | 采集大小超过限制的总数。 | ||
vm_promscrape_scrape_duration_seconds_sum | 采集指标的耗时。 | ||
vm_promscrape_scrape_duration_seconds_count | 采集指标的耗时总和。 | ||
vm_promscrape_scrapes_total | 采集总数。 | ||
vmagent_remotewrite_bytes_sent_total | 远程写发送字节总数。 | ||
vmagent_remotewrite_duration_seconds_sum | 远程写入耗时。 | ||
vmagent_remotewrite_duration_seconds_count | 远程写入耗时总和。 | ||
vmagent_remotewrite_packets_dropped_total | 远程写入数据包丢弃总数。 | ||
vmagent_remotewrite_pending_data_bytes | 远程写入挂起数据字节数。 | ||
vmagent_remotewrite_requests_total | 远程写入请求总数。 | ||
vmagent_remotewrite_retries_count_total | 远程写入重试次数总数。 | ||
go_goroutines | 当前时间goroutines个数。 | ||
serviceMonitor/monitoring/node-exporter/0 | node-exporter | node_boot_time_seconds | 节点开机时间。 |
node_context_switches_total | 上下文切换总数。 | ||
node_cpu_seconds_total | 在不同模式下节点累计CPU花费的总时间。 | ||
node_disk_io_now | 当前运行的I/O数量。 | ||
node_disk_io_time_seconds_total | I/O总耗时。 | ||
node_disk_io_time_weighted_seconds_total | 执行I/O所花费的加权总时间。 | ||
node_disk_read_bytes_total | 读取成功的字节总数。 | ||
node_disk_read_time_seconds_total | 读取花费的总时长。 | ||
node_disk_reads_completed_total | 读取完成的总数。 | ||
node_disk_write_time_seconds_total | 写入花费的总时长。 | ||
node_disk_writes_completed_total | 写入完成的总数。 | ||
node_disk_written_bytes_total | 写入成功的字节总数。 | ||
node_docker_thinpool_data_space_available | docker Thin pool数据可用空间。 | ||
node_docker_thinpool_metadata_space_available | docker Thin pool元数据可用空间。 | ||
node_exporter_build_info | Node Exporter构建信息。 | ||
node_filefd_allocated | 已分配的文件描述符。 | ||
node_filefd_maximum | 最大文件描述符。 | ||
node_filesystem_avail_bytes | 文件系统可用空间。 | ||
node_filesystem_device_error | 文件系统设备错误。 | ||
node_filesystem_free_bytes | 文件系统剩余空间。 | ||
node_filesystem_readonly | 只读文件系统。 | ||
node_filesystem_size_bytes | 文件系统占用空间。 | ||
node_forks_total | 节点fork总数。 | ||
node_intr_total | 节点中断总数。 | ||
node_load1 | 节点1分钟CPU负载。 | ||
node_load15 | 节点15分钟CPU负载。 | ||
node_load5 | 节点5分钟CPU负载。 | ||
node_memory_Buffers_bytes | 节点缓冲区的内存。 | ||
node_memory_Cached_bytes | 节点页面缓存中的内存。 | ||
node_memory_MemAvailable_bytes | 节点可用内存。 | ||
node_memory_MemFree_bytes | 节点空闲内存。 | ||
node_memory_MemTotal_bytes | 节点内存总量。 | ||
node_network_receive_bytes_total | 累积接收数据总量。 | ||
node_network_receive_drop_total | 接收丢包总数。 | ||
node_network_receive_errs_total | 接收错误总数。 | ||
node_network_receive_packets_total | 接收数据包总数。 | ||
node_network_transmit_bytes_total | 累计发送字节总数。 | ||
node_network_transmit_drop_total | 发送丢包总数。 | ||
node_network_transmit_errs_total | 发送错误总数。 | ||
node_network_transmit_packets_total | 发送数据包总数。 | ||
node_procs_blocked | 当前阻塞的进程。 | ||
node_procs_running | 当前运行的进程。 | ||
node_sockstat_sockets_used | 正在使用的套接字总量。 | ||
node_sockstat_TCP_alloc | 已分配的TCP套接字数量。 | ||
node_sockstat_TCP_inuse | 正在使用的TCP套接字数量。 | ||
node_sockstat_TCP_orphan | 无主的TCP连接数。 | ||
node_sockstat_TCP_tw | 等待关闭的TCP连接数。 | ||
node_sockstat_UDPLITE_inuse | UDP-Lite套接字当前使用量。 | ||
node_sockstat_UDP_inuse | UDP套接字当前使用量。 | ||
node_sockstat_UDP_mem | UDP套接字缓冲区使用量。 | ||
node_timex_offset_seconds | 时钟时间偏移。 | ||
node_timex_sync_status | 节点时钟同步状态。 | ||
node_uname_info | 系统内核信息。 | ||
node_vmstat_oom_kill | 记录由于内存不足而被系统终止的进程数量。 | ||
process_cpu_seconds_total | 进程占用CPU累计时长。 | ||
process_max_fds | 进程最大文件描述符。 | ||
process_open_fds | 进程当前打开的文件描述符。 | ||
process_resident_memory_bytes | 常驻内存集大小。 | ||
process_start_time_seconds | 进程启动时间。 | ||
process_virtual_memory_bytes | 虚拟内存大小。 | ||
process_virtual_memory_max_bytes | 可用的最大虚拟内存量。 | ||
node_netstat_Tcp_ActiveOpens | 从CLOSED状态直接转换到SYN-SENT状态的TCP连接数。 | ||
node_netstat_Tcp_PassiveOpens | 从LISTEN状态直接转换到SYN-RCVD状态的TCP连接数。 | ||
node_netstat_Tcp_CurrEstab | 当前状态为ESTABLISHED或CLOSE-WAIT的TCP连接数。 | ||
node_vmstat_pgmajfault | VM统计重大页故障(major page faults)次数。 | ||
node_vmstat_pgpgout | VM统计页出(page out)次数。 | ||
node_vmstat_pgfault | VM统计页面故障(page fault)次数。 | ||
node_vmstat_pgpgin | VM统计页入(page in)次数。 | ||
node_processes_max_processes | 进程上限数量。 | ||
node_processes_pids | PID个数。 | ||
node_nf_conntrack_entries | 链接状态跟踪表分配的数量。 | ||
node_nf_conntrack_entries_limit | 链接状态跟踪表总量。 | ||
promhttp_metric_handler_requests_in_flight | 当前正在处理的指标数量。 | ||
go_goroutines | 当前时间goroutines个数。 | ||
node_filesystem_files | 节点上文件系统的文件数量。 | ||
node_filesystem_files_free | 节点上文件系统的可用文件数量。 | ||
podMonitor/monitoring/nvidia-gpu-device-plugin/0 | monitoring/nvidia-gpu-device-plugin | cce_gpu_utilization | GPU卡算力使用率。 |
cce_gpu_memory_utilization | GPU卡显存使用率。 | ||
cce_gpu_encoder_utilization | GPU卡编码使用率。 | ||
cce_gpu_decoder_utilization | GPU卡解码使用率。 | ||
cce_gpu_utilization_process | GPU各进程算力使用率。 | ||
cce_gpu_memory_utilization_process | GPU各进程显存使用率。 | ||
cce_gpu_encoder_utilization_process | GPU各进程编码使用率。 | ||
cce_gpu_decoder_utilization_process | GPU各进程解码使用率。 | ||
cce_gpu_memory_used | GPU显存使用量。 | ||
cce_gpu_memory_total | GPU显存总量。 | ||
cce_gpu_memory_free | GPU显存空闲量。 | ||
cce_gpu_bar1_memory_used | GPU bar1内存使用量。 | ||
cce_gpu_bar1_memory_total | GPU bar1内存总量。 | ||
cce_gpu_clock | GPU时钟频率。 | ||
cce_gpu_memory_clock | GPU显存频率。 | ||
cce_gpu_graphics_clock | GPU图形处理器频率。 | ||
cce_gpu_video_clock | GPU视频处理器频率。 | ||
cce_gpu_temperature | GPU温度。 | ||
cce_gpu_power_usage | GPU功率。 | ||
cce_gpu_total_energy_consumption | GPU总能耗。 | ||
cce_gpu_pcie_link_bandwidth | GPU pcie带宽。 | ||
cce_gpu_nvlink_bandwidth | GPU nvlink带宽。 | ||
cce_gpu_pcie_throughput_rx | GPU pcie接收带宽。 | ||
cce_gpu_pcie_throughput_tx | GPU pcie发送带宽。 | ||
cce_gpu_nvlink_utilization_counter_rx | GPU nvlink接收带宽。 | ||
cce_gpu_nvlink_utilization_counter_tx | GPU nvlink发送带宽。 | ||
cce_gpu_retired_pages_sbe | GPU单比特错误隔离页数量。 | ||
cce_gpu_retired_pages_dbe | GPU双比特错误隔离页数量。 | ||
xgpu_memory_total | xGPU显存总量。 | ||
xgpu_memory_used | xGPU显存使用量。 | ||
xgpu_core_percentage_total | xGPU算力总量。 | ||
xgpu_core_percentage_used | xGPU算力使用量。 | ||
gpu_schedule_policy | GPU模式分成0、1、2三种:0为显存隔离算力共享模式;1为显存算力隔离模式;2为默认模式表示当前卡还没被用于xGPU设备分配。 | ||
xgpu_device_health | xGPU设备的健康情况。0表示xGPU设备为健康状态,1表示为非健康状态。 | ||
serviceMonitor/monitoring/prometheus-server/0 | prometheus-server | prometheus_build_info | Prometheus构建信息。 |
prometheus_engine_query_duration_seconds | 不同分片的响应时间耗时。 | ||
prometheus_engine_query_duration_seconds_count | 查询普罗的次数。 | ||
prometheus_sd_discovered_targets | 不同的target采集的指标数。 | ||
prometheus_remote_storage_bytes_total | 压缩后队列发送的数据(非元数据)的总字节数。 | ||
prometheus_remote_storage_enqueue_retries_total | 由于分片队列已满而入队失败重试的次数。 | ||
prometheus_remote_storage_highest_timestamp_in_seconds | 远程存储里最新的时间戳。 | ||
prometheus_remote_storage_queue_highest_sent_timestamp_seconds | 远程存储成功发送的最大时间戳。 | ||
prometheus_remote_storage_samples_dropped_total | 远程存储丢弃样本数量。 | ||
prometheus_remote_storage_samples_failed_total | 远程存储失败样本数量。 | ||
prometheus_remote_storage_samples_in_total | 远程存储样本数量。 | ||
prometheus_remote_storage_samples_pending | 远程存储pending样本数量。 | ||
prometheus_remote_storage_samples_retried_total | 远程存储重试样本数量。 | ||
prometheus_remote_storage_samples_total | 远程存储样本总数。 | ||
prometheus_remote_storage_shard_capacity | 用于并行发送到远程存储的队列中每个分片的容量。 | ||
prometheus_remote_storage_shards | 当前用于并行发送到远程存储的分片数。 | ||
prometheus_remote_storage_shards_desired | 分片队列期望基于输入样本和输出样本的比率运行的分片数。 | ||
prometheus_remote_storage_shards_max | 可用于并行发送到远程存储的分片数的最大值。 | ||
prometheus_remote_storage_shards_min | 可用于并行发送到远程存储的分片数的最小值。 | ||
prometheus_tsdb_wal_segment_current | TSDB当前正在写入的WAL段索引。 | ||
prometheus_tsdb_head_chunks | head中保存的数据块数量。 | ||
prometheus_tsdb_head_series | head中保存的时间序列数量。 | ||
prometheus_tsdb_head_samples_appended_total | head中添加的样本数量。 | ||
prometheus_wal_watcher_current_segment | 每个远程写入实例当前正在读取的WAL段文件。 | ||
prometheus_target_interval_length_seconds | 指标采集时间间隔。 | ||
prometheus_target_interval_length_seconds_count | 指标采集时间间隔计数。 | ||
prometheus_target_interval_length_seconds_sum | 指标采集时间间隔总和。 | ||
prometheus_target_scrapes_exceeded_body_size_limit_total | 指标采集body大小超限次数。 | ||
prometheus_target_scrapes_exceeded_sample_limit_total | 指标采集样本超限次数。 | ||
prometheus_target_scrapes_sample_duplicate_timestamp_total | 时间戳重复样本数量。 | ||
prometheus_target_scrapes_sample_out_of_bounds_total | 时间戳超限样本数量。 | ||
prometheus_target_scrapes_sample_out_of_order_total | 乱序样本数量。 | ||
prometheus_target_sync_length_seconds | target采集同步的间隔。 | ||
prometheus_target_sync_length_seconds_count | target采集同步的间隔计数。 | ||
prometheus_target_sync_length_seconds_sum | target采集同步的间隔总和。 | ||
promhttp_metric_handler_requests_in_flight | 当前正在处理的指标请求数量。 | ||
promhttp_metric_handler_requests_total | 指标请求处理次数。 | ||
go_goroutines | 当前时间goroutines个数。 | ||
podMonitor/monitoring/virtual-kubelet-pods/0 | monitoring/virtual-kubelet-pods | container_cpu_load_average_10s | 容器过去10秒内的CPU负载的平均值。 |
container_cpu_system_seconds_total | 容器系统CPU累积占用时间。 | ||
container_cpu_usage_seconds_total | 容器在所有CPU内核上的累积占用时间。 | ||
container_cpu_user_seconds_total | 容器用户CPU累积占用时间。 | ||
container_cpu_cfs_periods_total | 容器已经执行的CPU时间周期数。 | ||
container_cpu_cfs_throttled_periods_total | 容器被限流的CPU时间周期数。 | ||
container_cpu_cfs_throttled_seconds_total | 容器被限流的CPU时间。 | ||
container_fs_inodes_free | 文件系统的可用inode数量。 | ||
container_fs_usage_bytes | 文件系统的使用量。 | ||
container_fs_inodes_total | 文件系统的总计inode数量。 | ||
container_fs_io_current | 磁盘/文件系统当前正在进行的I/O数量。 | ||
container_fs_io_time_seconds_total | 磁盘/文件系统花费在I/O上的累计时间。 | ||
container_fs_io_time_weighted_seconds_total | 磁盘/文件系统累积加权I/O时间。 | ||
container_fs_limit_bytes | 容器可以使用的磁盘/文件系统总量。 | ||
container_fs_reads_bytes_total | 容器累积读取磁盘/文件系统数据的总量。 | ||
container_fs_read_seconds_total | 容器累积读取磁盘/文件系统数据的时间。 | ||
container_fs_reads_merged_total | 容器合并读取磁盘/文件系统的累积计数。 | ||
container_fs_reads_total | 容器读取磁盘/文件系统的累积计数。 | ||
container_fs_sector_reads_total | 容器扇区读取磁盘/文件系统的累积计数。 | ||
container_fs_sector_writes_total | 容器扇区写入磁盘/文件系统的累积计数。 | ||
container_fs_writes_bytes_total | 容器累积写入磁盘/文件系统数据的总量。 | ||
container_fs_write_seconds_total | 容器累计写入磁盘/文件系统的时间。 | ||
container_fs_writes_merged_total | 容器合并写入磁盘/文件系统的累积计数。 | ||
container_fs_writes_total | 容器写入磁盘/文件系统的累积计数。 | ||
container_blkio_device_usage_total | 容器区分IO操作对磁盘的使用总量。 | ||
container_memory_failures_total | 容器内存分配失败的累积计数。 | ||
container_memory_failcnt | 容器内存使用达到限制的次数。 | ||
container_memory_cache | 容器总页缓存内存。 | ||
container_memory_mapped_file | 容器内存映射文件的大小。 | ||
container_memory_max_usage_bytes | 容器最大内存使用量。 | ||
container_memory_rss | 容器常驻内存集的大小。 | ||
container_memory_swap | 容器虚拟内存使用量。 | ||
container_memory_usage_bytes | 容器当前的内存使用量。 | ||
container_memory_working_set_bytes | 容器工作集内存使用量。 | ||
container_network_receive_bytes_total | 容器网络累积接收数据总量。 | ||
container_network_receive_errors_total | 容器网络接收时遇到的错误累积计数。 | ||
container_network_receive_packets_dropped_total | 容器网络接收时丢弃的数据包的累积计数。 | ||
container_network_receive_packets_total | 容器网络接收数据包的累积计数。 | ||
container_network_transmit_bytes_total | 容器网络累积传输数据总量。 | ||
container_network_transmit_errors_total | 容器网络传输时遇到的错误累积计数。 | ||
container_network_transmit_packets_dropped_total | 容器网络传输时丢弃的数据包的累积计数。 | ||
container_network_transmit_packets_total | 容器网络传输数据包的累积计数。 | ||
container_processes | 容器当前运行的进程数。 | ||
container_sockets | 容器当前打开套接字的个数。 | ||
container_file_descriptors | 容器当前打开文件描述符的个数。 | ||
container_threads | 容器内当前运行的线程数。 | ||
container_threads_max | 容器内允许运行的最大线程数。 | ||
container_ulimits_soft | 容器内1号进程的软限制值。如果为-1,则无限制,优先级和nice除外。 | ||
container_tasks_state | 处于给定状态的任务数(sleeping,running,stopped,uninterruptible,ioawaiting)。 | ||
container_spec_cpu_period | 容器分配的CPU周期。 | ||
container_spec_cpu_shares | 容器分配的CPU份额。 | ||
container_spec_cpu_quota | 容器分配的CPU配额。 | ||
container_spec_memory_limit_bytes | 容器可以使用的总内存量限制。 | ||
container_spec_memory_reservation_limit_bytes | 容器可以使用的预留内存限制。 | ||
container_spec_memory_swap_limit_bytes | 容器可以使用的虚拟内存限制。 | ||
container_start_time_seconds | 容器已经运行的时间。 | ||
container_last_seen | 最近一次监控采集器感知到容器的时间。 | ||
container_accelerator_memory_used_bytes | 容器正在使用的GPU加速卡内存量。 | ||
container_accelerator_memory_total_bytes | 容器GPU加速卡可用内存总量。 | ||
container_accelerator_duty_cycle | GPU加速卡实际运行时间百分比。 | ||
podMonitor/monitoring/everest-csi-controller/0 | monitoring/everest-csi-controller | everest_action_result_total | 不同功能的调用情况。 |
everest_function_duration_seconds_bucket | 不同功能在不同执行时间下的次数。 | ||
everest_function_duration_seconds_count | 不同功能的调用次数。 | ||
everest_function_duration_seconds_sum | 不同功能的调用时间总和。 | ||
everest_function_duration_quantile_seconds | 不同功能调用所需的时间分位数。 | ||
node_volume_read_completed_total | 读操作完成次数。 | ||
node_volume_read_merged_total | 读操作合并次数。 | ||
node_volume_read_bytes_total | 扇区读字节总数。 | ||
node_volume_read_time_milliseconds_total | 读操作总耗时。 | ||
node_volume_write_completed_total | 写操作完成次数。 | ||
node_volume_write_merged_total | 写操作合并次数。 | ||
node_volume_write_bytes_total | 扇区写字节总数。 | ||
node_volume_write_time_milliseconds_total | 写操作总耗时。 | ||
node_volume_io_now | 当前正在进行的I/O次数。 | ||
node_volume_io_time_seconds_total | I/O操作总耗时。 | ||
node_volume_capacity_bytes_available | 可用容量。 | ||
node_volume_capacity_bytes_total | 总容量。 | ||
node_volume_capacity_bytes_used | 已用容量。 | ||
node_volume_inodes_available | 可用inode。 | ||
node_volume_inodes_total | 总inode。 | ||
node_volume_inodes_used | 已用inode。 | ||
node_volume_read_transmissions_total | 读取传输次数。 | ||
node_volume_read_timeouts_total | 读取超时次数。 | ||
node_volume_read_sent_bytes_total | 读取字节数。 | ||
node_volume_read_queue_time_milliseconds_total | 读取队列等待总耗时。 | ||
node_volume_read_rtt_time_milliseconds_total | 读取rtt总时长。 | ||
node_volume_write_transmissions_total | 写入传输总数。 | ||
node_volume_write_timeouts_total | 写入超时总数。 | ||
node_volume_write_queue_time_milliseconds_total | 写入队列等待总耗时。 | ||
node_volume_write_rtt_time_milliseconds_total | 写入rtt总时长。 | ||
node_volume_localvolume_stats_capacity_bytes | 本地存储卷总容量。 | ||
node_volume_localvolume_stats_available_bytes | 本地存储卷可用量。 | ||
node_volume_localvolume_stats_used_bytes | 本地存储卷已用量。 | ||
node_volume_localvolume_stats_inodes | 本地存储卷inodes数量。 | ||
node_volume_localvolume_stats_inodes_used | 本地存储卷inodes已用量。 | ||
podMonitor/monitoring/nginx-ingress-controller/0 | monitoring/nginx-ingress-controller | nginx_ingress_controller_connect_duration_seconds_bucket | 与上游服务器建立连接所花费的时间。 |
nginx_ingress_controller_connect_duration_seconds_sum | 与上游服务器建立连接所花费的时间。 | ||
nginx_ingress_controller_connect_duration_seconds_count | 与上游服务器建立连接所花费的时间。 | ||
nginx_ingress_controller_request_duration_seconds_bucket | 请求处理时间(以毫秒为单位)。 | ||
nginx_ingress_controller_request_duration_seconds_sum | 请求处理时间(以毫秒为单位)。 | ||
nginx_ingress_controller_request_duration_seconds_count | 请求处理时间(以毫秒为单位)。 | ||
nginx_ingress_controller_request_size_bucket | 请求长度(包括请求行、请求头和请求体)。 | ||
nginx_ingress_controller_request_size_sum | 请求长度(包括请求行、请求头和请求体)。 | ||
nginx_ingress_controller_request_size_count | 请求长度(包括请求行、请求头和请求体)。 | ||
nginx_ingress_controller_response_duration_seconds_bucket | 从上游服务器接收响应所花费的时间。 | ||
nginx_ingress_controller_response_duration_seconds_sum | 从上游服务器接收响应所花费的时间。 | ||
nginx_ingress_controller_response_duration_seconds_count | 从上游服务器接收响应所花费的时间。 | ||
nginx_ingress_controller_response_size_bucket | 响应长度(包括请求行、头和请求体)。 | ||
nginx_ingress_controller_response_size_sum | 响应长度(包括请求行、头和请求体)。 | ||
nginx_ingress_controller_response_size_count | 响应长度(包括请求行、头和请求体)。 | ||
nginx_ingress_controller_header_duration_seconds_bucket | 从上游服务器接收第一个header所用的时间。 | ||
nginx_ingress_controller_header_duration_seconds_sum | 从上游服务器接收第一个header所用的时间。 | ||
nginx_ingress_controller_header_duration_seconds_count | 从上游服务器接收第一个header所用的时间。 | ||
nginx_ingress_controller_bytes_sent | 发送到客户端的字节数。 | ||
nginx_ingress_controller_ingress_upstream_latency_seconds | 上行服务延迟。 | ||
nginx_ingress_controller_requests | 客户端请求的总数。 | ||
nginx_ingress_controller_nginx_process_connections | 当前处于活动、读取、写入、等待状态,每种状态各自的客户端连接数。 | ||
nginx_ingress_controller_nginx_process_connections_total | 自启动以来处于接受、已处理状态,每种状态各自的客户端连接总数。 | ||
nginx_ingress_controller_nginx_process_cpu_seconds_total | Nginx进程消耗的CPU时间总量(以秒为单位)。 | ||
nginx_ingress_controller_nginx_process_num_procs | 进程数。 | ||
nginx_ingress_controller_nginx_process_oldest_start_time_seconds | 自1970/01/01以来的开始时间(以秒为单位)。 | ||
nginx_ingress_controller_nginx_process_read_bytes_total | 读取的字节总数。 | ||
nginx_ingress_controller_nginx_process_requests_total | 自启动以来,Nginx处理的请求总数。 | ||
nginx_ingress_controller_nginx_process_resident_memory_bytes | 进程的常驻内存集使用量,即实际占用的物理内存大小。 | ||
nginx_ingress_controller_nginx_process_virtual_memory_bytes | 进程的虚拟内存使用量,即分配给进程的总内存大小,包括实际物理内存和虚拟交换空间。 | ||
nginx_ingress_controller_nginx_process_write_bytes_total | 进程向磁盘或其他长期存储设备写入的总数据量。 | ||
nginx_ingress_controller_build_info | 一个带有常量“1”的度量,标记有关于构建的信息。 | ||
nginx_ingress_controller_check_success | 语法检查累计次数。 | ||
nginx_ingress_controller_config_hash | 运行配置的哈希值。 | ||
nginx_ingress_controller_config_last_reload_successful | 最后一次尝试重新加载配置是否成功。 | ||
nginx_ingress_controller_config_last_reload_successful_timestamp_seconds | 最后一次成功重新加载配置的时间戳。 | ||
nginx_ingress_controller_ssl_certificate_info | 保留与证书相关的所有信息。 | ||
nginx_ingress_controller_success | 重新加载操作的累计次数。 | ||
nginx_ingress_controller_orphan_ingress | 孤立ingress的状态,1表示孤立ingress。0 表示正常。 namespace:是用于标识ingress名称空间的字符串。 ingress:表示ingress名称。 type:表示孤立ingress的状态,取值为no-service或no-endpoint。 | ||
nginx_ingress_controller_admission_config_size | 准入控制器的配置大小。 | ||
nginx_ingress_controller_admission_render_duration | 准入控制器配置渲染所花费的时间。 | ||
nginx_ingress_controller_admission_render_ingresses | 准入控制器配置渲染的入口长度。 | ||
nginx_ingress_controller_admission_roundtrip_duration | 准入控制器处理新事件所花费的时间。 | ||
nginx_ingress_controller_admission_tested_duration | 准入控制器测试所花费的时间。 | ||
nginx_ingress_controller_admission_tested_ingresses | 准入控制器测试的入口长度。 | ||
podMonitor/monitoring/cceaddon-npd/0 | monitoring/cceaddon-npd | problem_counter | 检测项异常发生的次数。 |
problem_gauge | 检测项是否触发异常。
|

