基础指标:容器指标
介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。
Target名称 |
Job名称 |
指标 |
指标含义 |
---|---|---|---|
|
coredns 和node-local-dns |
coredns_build_info |
CoreDNS的构建信息。 |
coredns_cache_entries |
CoreDNS缓存中元素的数量。 |
||
coredns_cache_size |
CoreDNS缓存大小。 |
||
coredns_cache_hits_total |
CoreDNS缓存命中总数。 |
||
coredns_cache_misses_total |
CoreDNS缓存未命中总数。 |
||
coredns_cache_requests_total |
不同维度下CoreDNS解析请求的总计数。 |
||
coredns_dns_request_duration_seconds_bucket |
CoreDNS请求时延。 |
||
coredns_dns_request_duration_seconds_count |
CoreDNS请求处理时间(秒)计数。 |
||
coredns_dns_request_duration_seconds_sum |
CoreDNS请求处理时间(秒)总和。 |
||
coredns_dns_request_size_bytes_bucket |
CoreDNS请求字节数。 |
||
coredns_dns_request_size_bytes_count |
CoreDNS请求大小(字节)计数。 |
||
coredns_dns_request_size_bytes_sum |
CoreDNS请求大小(字节)总和。 |
||
coredns_dns_requests_total |
CoreDNS请求的总数。 |
||
coredns_dns_response_size_bytes_bucket |
CoreDNS返回字节数。 |
||
coredns_dns_response_size_bytes_count |
CoreDNS响应大小(字节)计数。 |
||
coredns_dns_response_size_bytes_sum |
CoreDNS响应大小(字节)总和。 |
||
coredns_dns_responses_total |
CoreDNS响应码的总数。 |
||
coredns_forward_conn_cache_hits_total |
每个协议和数据流的缓存命中总数。 |
||
coredns_forward_conn_cache_misses_total |
每个协议和数据流的缓存未命中总数。 |
||
coredns_forward_healthcheck_broken_total |
转发健康检查失败总数。 |
||
coredns_forward_healthcheck_failures_total |
转发健康检查故障总数。 |
||
coredns_forward_max_concurrent_rejects_total |
并发超限拒绝总数。 |
||
coredns_forward_request_duration_seconds_bucket |
CoreDNS转发请求时延。 |
||
coredns_forward_request_duration_seconds_count |
CoreDNS转发请求持续时间(秒)计数。 |
||
coredns_forward_request_duration_seconds_sum |
CoreDNS转发请求持续时间(秒)总和。 |
||
coredns_forward_requests_total |
每个数据流的请求总数。 |
||
coredns_forward_responses_total |
每个数据流的响应总数。 |
||
coredns_health_request_duration_seconds_bucket |
CoreDNS健康检查请求时延。 |
||
coredns_health_request_duration_seconds_count |
CoreDNS健康检查请求持续时间(秒)计数。 |
||
coredns_health_request_duration_seconds_sum |
CoreDNS健康检查请求持续时间(秒)总和。 |
||
coredns_health_request_failures_total |
CoreDNS健康检查请求失败总数。 |
||
coredns_hosts_reload_timestamp_seconds |
CoreDNS最近一次加载host文件的时间戳。 |
||
coredns_kubernetes_dns_programming_duration_seconds_bucket |
DNS编程时延。 |
||
coredns_kubernetes_dns_programming_duration_seconds_count |
DNS编程持续时间(秒)计数。 |
||
coredns_kubernetes_dns_programming_duration_seconds_sum |
DNS编程持续时间(秒)总和。 |
||
coredns_local_localhost_requests_total |
CoreDNS处理的localhost请求总数量。 |
||
coredns_nodecache_setup_errors_total |
节点缓存插件设置错误总数。 |
||
coredns_dns_response_rcode_count_total |
不同响应码个数的累计值。 |
||
coredns_dns_request_count_total |
记录所有请求查询的累计值。 |
||
coredns_dns_request_do_count_total |
设置了DO标志位的请求次数累计值。 |
||
coredns_dns_do_requests_total |
设置了DO标志位的请求总数。 |
||
coredns_dns_request_type_count_total |
每种类型的请求累计值。 |
||
coredns_panics_total |
CoreDNS发生异常退出的总数。 |
||
coredns_plugin_enabled |
CoreDNS各插件的启用状态。 |
||
coredns_reload_failed_total |
重新加载配置文件失败的总数。 |
||
serviceMonitor/monitoring/kube-apiserver/0 |
apiserver |
aggregator_unavailable_apiservice |
不可用的apiservice数量。 |
apiserver_admission_controller_admission_duration_seconds_bucket |
准入控制器的处理延时。 |
||
apiserver_admission_webhook_admission_duration_seconds_bucket |
准入Webhook的处理延时。 |
||
apiserver_admission_webhook_admission_duration_seconds_count |
准入Webhook的处理请求统计。 |
||
apiserver_client_certificate_expiration_seconds_bucket |
证书剩余有效时长。 |
||
apiserver_client_certificate_expiration_seconds_count |
证书剩余有效时长。 |
||
apiserver_current_inflight_requests |
在处理读请求数量。 |
||
apiserver_request_duration_seconds_bucket |
客户端对apiserver的访问时延。 |
||
apiserver_request_total |
apiserver请求数按照返回码等维度的总计数。 |
||
go_goroutines |
当前时间goroutines个数。 |
||
kubernetes_build_info |
构建信息。 |
||
process_cpu_seconds_total |
进程占用CPU累计时长。 |
||
process_resident_memory_bytes |
常驻内存集大小。 |
||
rest_client_requests_total |
请求apiserver的总数(按照返回码code和请求类型method统计)。 |
||
workqueue_adds_total |
工作队列增加总数。 |
||
workqueue_depth |
当前工作队列深度。 |
||
workqueue_queue_duration_seconds_bucket |
任务在当前队列中的停留时间。 |
||
aggregator_unavailable_apiservice_total |
不可用的apiservice总数。 |
||
rest_client_request_duration_seconds_bucket |
请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。 |
||
serviceMonitor/monitoring/kubelet/0 |
kubelet |
kubelet_certificate_manager_client_expiration_renew_errors |
证书续期错误次数。 |
kubelet_certificate_manager_client_ttl_seconds |
Kubelet客户端证书的TTL。 |
||
kubelet_cgroup_manager_duration_seconds_bucket |
销毁和更新操作的耗时分布情况。 |
||
kubelet_cgroup_manager_duration_seconds_count |
销毁和更新的数量。 |
||
kubelet_node_config_error |
如果节点遇到与配置相关的错误,则此指标为true(1),否则为false(0)。 |
||
kubelet_node_name |
节点名称,值始终为1。 |
||
kubelet_pleg_relist_duration_seconds_bucket |
PLEG relist pod耗时的分布情况。 |
||
kubelet_pleg_relist_duration_seconds_count |
PLEG relist pod不同耗时的数量。 |
||
kubelet_pleg_relist_interval_seconds_bucket |
PLEG relist间隔的分布情况。 |
||
kubelet_pod_start_duration_seconds_count |
进行过pod启动的数量。 |
||
kubelet_pod_start_duration_seconds_bucket |
pod启动的耗时分布情况。 |
||
kubelet_pod_worker_duration_seconds_bucket |
同步单个Pod的持续时间。 |
||
kubelet_running_containers |
当前运行的容器数。 |
||
kubelet_running_pods |
当前运行的pod数。 |
||
kubelet_runtime_operations_duration_seconds_bucket |
不同操作的累计操作耗时分布情况。 |
||
kubelet_runtime_operations_errors_total |
不同操作的累计操作失败的总数量。 |
||
kubelet_runtime_operations_total |
运行过程中不同的操作类型的累计操作总数。 |
||
kubelet_volume_stats_available_bytes |
卷中可用字节数。 |
||
kubelet_volume_stats_capacity_bytes |
卷的容量(以字节为单位)。 |
||
kubelet_volume_stats_inodes |
卷中的最大inode数。 |
||
kubelet_volume_stats_inodes_used |
卷中已使用的inode数。 |
||
kubelet_volume_stats_used_bytes |
卷中已使用的字节数。 |
||
storage_operation_duration_seconds_bucket |
存储操作的持续时间。 |
||
storage_operation_duration_seconds_count |
存储操作的操作次数。 |
||
storage_operation_errors_total |
存储操作的错误总数。 |
||
volume_manager_total_volumes |
卷管理中的卷数量。 |
||
rest_client_requests_total |
请求apiserver的总数(按照返回码code和请求类型method统计)。 |
||
rest_client_request_duration_seconds_bucket |
请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。 |
||
process_resident_memory_bytes |
常驻内存集大小。 |
||
process_cpu_seconds_total |
进程占用CPU累计时长。 |
||
go_goroutines |
当前时间goroutines个数。 |
||
serviceMonitor/monitoring/kubelet/1 |
kubelet |
container_cpu_cfs_periods_total |
容器经过强制限制的周期间隔总数。 |
container_cpu_cfs_throttled_periods_total |
容器限制周期间隔总数。 |
||
container_cpu_cfs_throttled_seconds_total |
容器被限流的CPU总时间。 |
||
container_cpu_load_average_10s |
容器过去10秒内的CPU负载的平均值。 |
||
container_cpu_usage_seconds_total |
容器CPU总使用量。 |
||
container_file_descriptors |
容器打开的文件描述符数量。 |
||
container_fs_inodes_free |
文件系统的可用inode区数量。 |
||
container_fs_inodes_total |
文件系统的总计inode区总数量。 |
||
container_fs_io_time_seconds_total |
磁盘/文件系统花费在I/O上的累计时间。 |
||
container_fs_limit_bytes |
容器可以使用的磁盘/文件系统总量。 |
||
container_fs_read_seconds_total |
容器累积读取磁盘/文件系统数据的总时间。 |
||
container_fs_reads_bytes_total |
容器累积读取磁盘/文件系统数据的总量。 |
||
container_fs_reads_total |
容器读取磁盘/文件系统的累积计数。 |
||
container_fs_usage_bytes |
文件系统的使用量。 |
||
container_fs_write_seconds_total |
容器累计写入磁盘/文件系统的总时间。 |
||
container_fs_writes_bytes_total |
容器累积写入磁盘/文件系统数据的总量。 |
||
container_fs_writes_total |
容器写入磁盘/文件系统的累积总数。 |
||
container_memory_cache |
容器总页缓存内存。 |
||
container_memory_failcnt |
容器内存使用达到限制的次数。 |
||
container_memory_max_usage_bytes |
容器最大内存使用量。 |
||
container_memory_rss |
容器常驻内存集的大小。 |
||
container_memory_swap |
容器交换内存使用量。 |
||
container_memory_usage_bytes |
容器当前的内存使用量。 |
||
container_memory_working_set_bytes |
容器工作集内存使用量。 |
||
container_network_receive_bytes_total |
容器网络累积接收数据总量。 |
||
container_network_receive_errors_total |
容器网络接收时遇到的错误累积计数。 |
||
container_network_receive_packets_dropped_total |
容器网络接收时丢弃的数据包的累积计数。 |
||
container_network_receive_packets_total |
容器网络接收数据包的累积计数。 |
||
container_network_transmit_bytes_total |
容器网络累积传输数据总量。 |
||
container_network_transmit_errors_total |
容器网络传输时遇到的错误累积计数。 |
||
container_network_transmit_packets_dropped_total |
容器网络传输时丢弃的数据包的累积计数。 |
||
container_network_transmit_packets_total |
容器网络传输数据包的累积计数。 |
||
container_spec_cpu_quota |
容器分配的CPU配额。 |
||
container_spec_memory_limit_bytes |
容器可以使用的总内存量限制。 |
||
machine_cpu_cores |
物理机或虚拟机中的CPU核心数量。 |
||
machine_memory_bytes |
当前物理机或虚拟机的内存总数。 |
||
serviceMonitor/monitoring/kube-state-metrics/0 |
kube-state-metrics-prom |
kube_cronjob_status_active |
当前活动的周期任务。 |
kube_cronjob_info |
周期任务。 |
||
kube_cronjob_labels |
周期任务标签。 |
||
kube_configmap_info |
ConfigMap信息。 |
||
kube_daemonset_created |
Daemonset创建时间。 |
||
kube_daemonset_status_current_number_scheduled |
当前调度的DaemonSet数量。 |
||
kube_daemonset_status_desired_number_scheduled |
期望调度的DaemonSet数量。 |
||
kube_daemonset_status_number_available |
期望运行DaemonSet且已经至少运行一个Pod的节点数。 |
||
kube_daemonset_status_number_misscheduled |
期望之外运行DaemonSet的节点数。 |
||
kube_daemonset_status_number_ready |
期望运行DaemonSet且Pod已经就绪的节点数。 |
||
kube_daemonset_status_number_unavailable |
期望运行DaemonSet但没有Pod运行的节点数。 |
||
kube_daemonset_status_updated_number_scheduled |
正在运行已更新的DaemonSet的Pod的节点数。 |
||
kube_deployment_created |
Deployment创建时间戳。 |
||
kube_deployment_labels |
Deployment标签。 |
||
kube_deployment_metadata_generation |
Deployment期望状态的代数。 |
||
kube_deployment_spec_replicas |
Deployment期望的副本数。 |
||
kube_deployment_spec_strategy_rollingupdate_max_unavailable |
滚动升级时最大不可用副本数。 |
||
kube_deployment_status_observed_generation |
Deployment控制器观察到的代数。 |
||
kube_deployment_status_replicas |
Deployment当前的副本数。 |
||
kube_deployment_status_replicas_available |
Deployment可用的副本数量。 |
||
kube_deployment_status_replicas_ready |
Deployment已就绪的副本数量。 |
||
kube_deployment_status_replicas_unavailable |
Deployment不可用的副本数量。 |
||
kube_deployment_status_replicas_updated |
Deployment已更新的副本数量。 |
||
kube_job_info |
Job信息。 |
||
kube_namespace_labels |
命名空间标签。 |
||
kube_node_labels |
节点标签。 |
||
kube_node_info |
节点信息。 |
||
kube_node_spec_taint |
节点污点信息。 |
||
kube_node_spec_unschedulable |
节点是否可调度。 |
||
kube_node_status_allocatable |
节点可分配资源。 |
||
kube_node_status_capacity |
节点资源总量。 |
||
kube_node_status_condition |
节点状态条件。 |
||
kube_node_volcano_oversubscription_status |
节点超卖状态。 |
||
kube_persistentvolume_status_phase |
PV的状态。 |
||
kube_persistentvolumeclaim_status_phase |
PVC的状态。 |
||
kube_persistentvolume_info |
PV信息。 |
||
kube_persistentvolumeclaim_info |
PVC信息。 |
||
kube_pod_container_info |
Pod中的容器信息。 |
||
kube_pod_container_resource_limits |
容器请求的限制资源数。 |
||
kube_pod_container_resource_requests |
容器请求的请求资源数。 |
||
kube_pod_container_status_last_terminated_reason |
容器最后终止原因。 |
||
kube_pod_container_status_ready |
容器就绪状态。 |
||
kube_pod_container_status_restarts_total |
容器重启总数。 |
||
kube_pod_container_status_running |
容器当前是否在运行中的状态。 |
||
kube_pod_container_status_terminated |
容器是否处在终止状态。 |
||
kube_pod_container_status_terminated_reason |
容器终止原因。 |
||
kube_pod_container_status_waiting |
容器等待状态。 |
||
kube_pod_container_status_waiting_reason |
容器等待原因。 |
||
kube_pod_info |
Pod信息。 |
||
kube_pod_labels |
Pod标签。 |
||
kube_pod_owner |
Pod所属对象。 |
||
kube_pod_status_phase |
Pod当前的阶段。 |
||
kube_pod_status_ready |
Pod就绪状态。 |
||
kube_secret_info |
Secret信息。 |
||
kube_statefulset_created |
StatefulSet的创建时间戳。 |
||
kube_statefulset_labels |
StatefulSet的标签信息。 |
||
kube_statefulset_metadata_generation |
StatefulSet元数据生成代数。 |
||
kube_statefulset_replicas |
StatefulSet期望的Pod数。 |
||
kube_statefulset_status_observed_generation |
StatefulSet控制器观察到的生成。 |
||
kube_statefulset_status_replicas |
StatefulSet中有状态的副本数。 |
||
kube_statefulset_status_replicas_ready |
StatefulSet中就绪状态的副本数。 |
||
kube_statefulset_status_replicas_updated |
StatefulSet中更新状态的副本数。 |
||
kube_job_spec_completions |
成功完成所需Pod数量。 |
||
kube_job_status_failed |
失败的Job。 |
||
kube_job_status_succeeded |
成功的Job。 |
||
kube_node_status_allocatable_cpu_cores |
节点可分配CPU核数。 |
||
kube_node_status_allocatable_memory_bytes |
节点可分配内存。 |
||
kube_replicaset_owner |
副本集所属对象。 |
||
kube_resourcequota |
资源配额。 |
||
kube_pod_spec_volumes_persistentvolumeclaims_info |
Pod关联的PVC信息。 |
||
serviceMonitor/monitoring/prometheus-lightweight/0 |
prometheus-lightweight |
vm_persistentqueue_blocks_dropped_total |
发送队列Block丢弃总数量。 |
vm_persistentqueue_blocks_read_total |
发送队列Block读取总数量。 |
||
vm_persistentqueue_blocks_written_total |
发送队列Block写入总数量。 |
||
vm_persistentqueue_bytes_pending |
发送队列Pending字节数。 |
||
vm_persistentqueue_bytes_read_total |
发送队列读取的字节总数。 |
||
vm_persistentqueue_bytes_written_total |
发送队列写入的字节总数。 |
||
vm_promscrape_active_scrapers |
采集的分片数量。 |
||
vm_promscrape_conn_read_errors_total |
采集读取错误总数。 |
||
vm_promscrape_conn_write_errors_total |
采集写入错误总数。 |
||
vm_promscrape_max_scrape_size_exceeded_errors_total |
采集大小超过限制的总数。 |
||
vm_promscrape_scrape_duration_seconds_sum |
采集指标的耗时。 |
||
vm_promscrape_scrape_duration_seconds_count |
采集指标的耗时总和。 |
||
vm_promscrape_scrapes_total |
采集总数。 |
||
vmagent_remotewrite_bytes_sent_total |
远程写发送字节总数。 |
||
vmagent_remotewrite_duration_seconds_sum |
远程写入耗时。 |
||
vmagent_remotewrite_duration_seconds_count |
远程写入耗时总和。 |
||
vmagent_remotewrite_packets_dropped_total |
远程写入数据包丢弃总数。 |
||
vmagent_remotewrite_pending_data_bytes |
远程写入挂起数据字节数。 |
||
vmagent_remotewrite_requests_total |
远程写入请求总数。 |
||
vmagent_remotewrite_retries_count_total |
远程写入重试次数总数。 |
||
go_goroutines |
当前时间goroutines个数。 |
||
serviceMonitor/monitoring/node-exporter/0 |
node-exporter |
node_boot_time_seconds |
节点开机时间。 |
node_context_switches_total |
上下文切换总数。 |
||
node_cpu_seconds_total |
在不同模式下节点累计CPU花费的总时间。 |
||
node_disk_io_now |
当前运行的I/O数量。 |
||
node_disk_io_time_seconds_total |
I/O总耗时。 |
||
node_disk_io_time_weighted_seconds_total |
执行I/O所花费的加权总时间。 |
||
node_disk_read_bytes_total |
读取成功的字节总数。 |
||
node_disk_read_time_seconds_total |
读取花费的总时长。 |
||
node_disk_reads_completed_total |
读取完成的总数。 |
||
node_disk_write_time_seconds_total |
写入花费的总时长。 |
||
node_disk_writes_completed_total |
写入完成的总数。 |
||
node_disk_written_bytes_total |
写入成功的字节总数。 |
||
node_docker_thinpool_data_space_available |
docker Thin pool数据可用空间。 |
||
node_docker_thinpool_metadata_space_available |
docker Thin pool元数据可用空间。 |
||
node_exporter_build_info |
Node Exporter构建信息。 |
||
node_filefd_allocated |
已分配的文件描述符。 |
||
node_filefd_maximum |
最大文件描述符。 |
||
node_filesystem_avail_bytes |
文件系统可用空间。 |
||
node_filesystem_device_error |
文件系统设备错误。 |
||
node_filesystem_free_bytes |
文件系统剩余空间。 |
||
node_filesystem_readonly |
只读文件系统。 |
||
node_filesystem_size_bytes |
文件系统占用空间。 |
||
node_forks_total |
节点fork总数。 |
||
node_intr_total |
节点中断总数。 |
||
node_load1 |
节点1分钟CPU负载。 |
||
node_load15 |
节点15分钟CPU负载。 |
||
node_load5 |
节点5分钟CPU负载。 |
||
node_memory_Buffers_bytes |
节点缓冲区的内存。 |
||
node_memory_Cached_bytes |
节点页面缓存中的内存。 |
||
node_memory_MemAvailable_bytes |
节点可用内存。 |
||
node_memory_MemFree_bytes |
节点空闲内存。 |
||
node_memory_MemTotal_bytes |
节点内存总量。 |
||
node_network_receive_bytes_total |
累积接收数据总量。 |
||
node_network_receive_drop_total |
接收丢包总数。 |
||
node_network_receive_errs_total |
接收错误总数。 |
||
node_network_receive_packets_total |
接收数据包总数。 |
||
node_network_transmit_bytes_total |
累计发送字节总数。 |
||
node_network_transmit_drop_total |
发送丢包总数。 |
||
node_network_transmit_errs_total |
发送错误总数。 |
||
node_network_transmit_packets_total |
发送数据包总数。 |
||
node_procs_blocked |
当前阻塞的进程。 |
||
node_procs_running |
当前运行的进程。 |
||
node_sockstat_sockets_used |
正在使用的套接字总量。 |
||
node_sockstat_TCP_alloc |
已分配的TCP套接字数量。 |
||
node_sockstat_TCP_inuse |
正在使用的TCP套接字数量。 |
||
node_sockstat_TCP_orphan |
无主的TCP连接数。 |
||
node_sockstat_TCP_tw |
等待关闭的TCP连接数。 |
||
node_sockstat_UDPLITE_inuse |
UDP-Lite套接字当前使用量。 |
||
node_sockstat_UDP_inuse |
UDP套接字当前使用量。 |
||
node_sockstat_UDP_mem |
UDP套接字缓冲区使用量。 |
||
node_timex_offset_seconds |
时钟时间偏移。 |
||
node_timex_sync_status |
节点时钟同步状态。 |
||
node_uname_info |
系统内核信息。 |
||
node_vmstat_oom_kill |
记录由于内存不足而被系统终止的进程数量。 |
||
process_cpu_seconds_total |
进程占用CPU累计时长。 |
||
process_max_fds |
进程最大文件描述符。 |
||
process_open_fds |
进程当前打开的文件描述符。 |
||
process_resident_memory_bytes |
常驻内存集大小。 |
||
process_start_time_seconds |
进程启动时间。 |
||
process_virtual_memory_bytes |
虚拟内存大小。 |
||
process_virtual_memory_max_bytes |
可用的最大虚拟内存量。 |
||
node_netstat_Tcp_ActiveOpens |
从CLOSED状态直接转换到SYN-SENT状态的TCP连接数。 |
||
node_netstat_Tcp_PassiveOpens |
从LISTEN状态直接转换到SYN-RCVD状态的TCP连接数。 |
||
node_netstat_Tcp_CurrEstab |
当前状态为ESTABLISHED或CLOSE-WAIT的TCP连接数。 |
||
node_vmstat_pgmajfault |
VM统计重大页故障(major page faults)次数。 |
||
node_vmstat_pgpgout |
VM统计页出(page out)次数。 |
||
node_vmstat_pgfault |
VM统计页面故障(page fault)次数。 |
||
node_vmstat_pgpgin |
VM统计页入(page in)次数。 |
||
node_processes_max_processes |
进程上限数量。 |
||
node_processes_pids |
PID个数。 |
||
node_nf_conntrack_entries |
链接状态跟踪表分配的数量。 |
||
node_nf_conntrack_entries_limit |
链接状态跟踪表总量。 |
||
promhttp_metric_handler_requests_in_flight |
当前正在处理的指标数量。 |
||
go_goroutines |
当前时间goroutines个数。 |
||
podMonitor/monitoring/nvidia-gpu-device-plugin/0 |
monitoring/nvidia-gpu-device-plugin |
cce_gpu_utilization |
GPU卡算力使用率。 |
cce_gpu_memory_utilization |
GPU卡显存使用率。 |
||
cce_gpu_encoder_utilization |
GPU卡编码使用率。 |
||
cce_gpu_decoder_utilization |
GPU卡解码使用率。 |
||
cce_gpu_utilization_process |
GPU各进程算力使用率。 |
||
cce_gpu_memory_utilization_process |
GPU各进程显存使用率。 |
||
cce_gpu_encoder_utilization_process |
GPU各进程编码使用率。 |
||
cce_gpu_decoder_utilization_process |
GPU各进程解码使用率。 |
||
cce_gpu_memory_used |
GPU显存使用量。 |
||
cce_gpu_memory_total |
GPU显存总量。 |
||
cce_gpu_memory_free |
GPU显存空闲量。 |
||
cce_gpu_bar1_memory_used |
GPU bar1内存使用量。 |
||
cce_gpu_bar1_memory_total |
GPU bar1内存总量。 |
||
cce_gpu_clock |
GPU时钟频率。 |
||
cce_gpu_memory_clock |
GPU显存频率。 |
||
cce_gpu_graphics_clock |
GPU图形处理器频率。 |
||
cce_gpu_video_clock |
GPU视频处理器频率。 |
||
cce_gpu_temperature |
GPU温度。 |
||
cce_gpu_power_usage |
GPU功率。 |
||
cce_gpu_total_energy_consumption |
GPU总能耗。 |
||
cce_gpu_pcie_link_bandwidth |
GPU pcie带宽。 |
||
cce_gpu_nvlink_bandwidth |
GPU nvlink带宽。 |
||
cce_gpu_pcie_throughput_rx |
GPU pcie接收带宽。 |
||
cce_gpu_pcie_throughput_tx |
GPU pcie发送带宽。 |
||
cce_gpu_nvlink_utilization_counter_rx |
GPU nvlink接收带宽。 |
||
cce_gpu_nvlink_utilization_counter_tx |
GPU nvlink发送带宽。 |
||
cce_gpu_retired_pages_sbe |
GPU 单比特错误隔离页数量。 |
||
cce_gpu_retired_pages_dbe |
GPU 双比特错误隔离页数量。 |
||
xgpu_memory_total |
xGPU显存总量。 |
||
xgpu_memory_used |
xGPU显存使用量。 |
||
xgpu_core_percentage_total |
xGPU算力总量。 |
||
xgpu_core_percentage_used |
xGPU算力使用量。 |
||
gpu_schedule_policy |
GPU模式分成0、1、2三种:0为显存隔离算力共享模式;1为显存算力隔离模式;2为默认模式表示当前卡还没被用于xGPU设备分配。 |
||
xgpu_device_health |
xGPU设备的健康情况。0表示xGPU设备为健康状态,1表示为非健康状态。 |
||
serviceMonitor/monitoring/prometheus-server/0 |
prometheus-server |
prometheus_build_info |
Prometheus构建信息。 |
prometheus_engine_query_duration_seconds |
不同分片的响应时间耗时。 |
||
prometheus_engine_query_duration_seconds_count |
查询普罗的次数。 |
||
prometheus_sd_discovered_targets |
不同的target采集的指标数。 |
||
prometheus_remote_storage_bytes_total |
压缩后队列发送的数据(非元数据)的总字节数。 |
||
prometheus_remote_storage_enqueue_retries_total |
由于分片队列已满而入队失败重试的次数。 |
||
prometheus_remote_storage_highest_timestamp_in_seconds |
远程存储里最新的时间戳。 |
||
prometheus_remote_storage_queue_highest_sent_timestamp_seconds |
远程存储成功发送的最大时间戳。 |
||
prometheus_remote_storage_samples_dropped_total |
远程存储丢弃样本数量。 |
||
prometheus_remote_storage_samples_failed_total |
远程存储失败样本数量。 |
||
prometheus_remote_storage_samples_in_total |
远程存储样本数量。 |
||
prometheus_remote_storage_samples_pending |
远程存储pending样本数量。 |
||
prometheus_remote_storage_samples_retried_total |
远程存储重试样本数量。 |
||
prometheus_remote_storage_samples_total |
远程存储样本总数。 |
||
prometheus_remote_storage_shard_capacity |
用于并行发送到远程存储的队列中每个分片的容量。 |
||
prometheus_remote_storage_shards |
当前用于并行发送到远程存储的分片数。 |
||
prometheus_remote_storage_shards_desired |
分片队列期望基于输入样本和输出样本的比率运行的分片数。 |
||
prometheus_remote_storage_shards_max |
可用于并行发送到远程存储的分片数的最大值。 |
||
prometheus_remote_storage_shards_min |
可用于并行发送到远程存储的分片数的最小值。 |
||
prometheus_tsdb_wal_segment_current |
TSDB当前正在写入的WAL段索引。 |
||
prometheus_tsdb_head_chunks |
head中保存的数据块数量。 |
||
prometheus_tsdb_head_series |
head中保存的时间序列数量。 |
||
prometheus_tsdb_head_samples_appended_total |
head中添加的样本数量。 |
||
prometheus_wal_watcher_current_segment |
每个远程写入实例当前正在读取的WAL段文件。 |
||
prometheus_target_interval_length_seconds |
指标采集时间间隔。 |
||
prometheus_target_interval_length_seconds_count |
指标采集时间间隔计数。 |
||
prometheus_target_interval_length_seconds_sum |
指标采集时间间隔总和。 |
||
prometheus_target_scrapes_exceeded_body_size_limit_total |
指标采集body大小超限次数。 |
||
prometheus_target_scrapes_exceeded_sample_limit_total |
指标采集样本超限次数。 |
||
prometheus_target_scrapes_sample_duplicate_timestamp_total |
时间戳重复样本数量。 |
||
prometheus_target_scrapes_sample_out_of_bounds_total |
时间戳超限样本数量。 |
||
prometheus_target_scrapes_sample_out_of_order_total |
乱序样本数量。 |
||
prometheus_target_sync_length_seconds |
target采集同步的间隔。 |
||
prometheus_target_sync_length_seconds_count |
target采集同步的间隔计数。 |
||
prometheus_target_sync_length_seconds_sum |
target采集同步的间隔总和。 |
||
promhttp_metric_handler_requests_in_flight |
当前正在处理的指标请求数量。 |
||
promhttp_metric_handler_requests_total |
指标请求处理次数。 |
||
go_goroutines |
当前时间goroutines个数。 |
||
podMonitor/monitoring/virtual-kubelet-pods/0 |
monitoring/virtual-kubelet-pods |
container_cpu_load_average_10s |
容器过去10秒内的CPU负载的平均值。 |
container_cpu_system_seconds_total |
容器系统CPU累积占用时间。 |
||
container_cpu_usage_seconds_total |
容器在所有CPU内核上的累积占用时间。 |
||
container_cpu_user_seconds_total |
容器用户CPU累积占用时间。 |
||
container_cpu_cfs_periods_total |
容器已经执行的CPU时间周期数。 |
||
container_cpu_cfs_throttled_periods_total |
容器被限流的CPU时间周期数。 |
||
container_cpu_cfs_throttled_seconds_total |
容器被限流的CPU时间。 |
||
container_fs_inodes_free |
文件系统的可用inode数量。 |
||
container_fs_usage_bytes |
文件系统的使用量。 |
||
container_fs_inodes_total |
文件系统的总计inode数量。 |
||
container_fs_io_current |
磁盘/文件系统当前正在进行的I/O数量。 |
||
container_fs_io_time_seconds_total |
磁盘/文件系统花费在I/O上的累计时间。 |
||
container_fs_io_time_weighted_seconds_total |
磁盘/文件系统累积加权I/O时间。 |
||
container_fs_limit_bytes |
容器可以使用的磁盘/文件系统总量。 |
||
container_fs_reads_bytes_total |
容器累积读取磁盘/文件系统数据的总量。 |
||
container_fs_read_seconds_total |
容器累积读取磁盘/文件系统数据的时间。 |
||
container_fs_reads_merged_total |
容器合并读取磁盘/文件系统的累积计数。 |
||
container_fs_reads_total |
容器读取磁盘/文件系统的累积计数。 |
||
container_fs_sector_reads_total |
容器扇区读取磁盘/文件系统的累积计数。 |
||
container_fs_sector_writes_total |
容器扇区写入磁盘/文件系统的累积计数。 |
||
container_fs_writes_bytes_total |
容器累积写入磁盘/文件系统数据的总量。 |
||
container_fs_write_seconds_total |
容器累计写入磁盘/文件系统的时间。 |
||
container_fs_writes_merged_total |
容器合并写入磁盘/文件系统的累积计数。 |
||
container_fs_writes_total |
容器写入磁盘/文件系统的累积计数。 |
||
container_blkio_device_usage_total |
容器区分IO操作对磁盘的使用总量。 |
||
container_memory_failures_total |
容器内存分配失败的累积计数。 |
||
container_memory_failcnt |
容器内存使用达到限制的次数。 |
||
container_memory_cache |
容器总页缓存内存。 |
||
container_memory_mapped_file |
容器内存映射文件的大小。 |
||
container_memory_max_usage_bytes |
容器最大内存使用量。 |
||
container_memory_rss |
容器常驻内存集的大小。 |
||
container_memory_swap |
容器虚拟内存使用量。 |
||
container_memory_usage_bytes |
容器当前的内存使用量。 |
||
container_memory_working_set_bytes |
容器工作集内存使用量。 |
||
container_network_receive_bytes_total |
容器网络累积接收数据总量。 |
||
container_network_receive_errors_total |
容器网络接收时遇到的错误累积计数。 |
||
container_network_receive_packets_dropped_total |
容器网络接收时丢弃的数据包的累积计数。 |
||
container_network_receive_packets_total |
容器网络接收数据包的累积计数。 |
||
container_network_transmit_bytes_total |
容器网络累积传输数据总量。 |
||
container_network_transmit_errors_total |
容器网络传输时遇到的错误累积计数。 |
||
container_network_transmit_packets_dropped_total |
容器网络传输时丢弃的数据包的累积计数。 |
||
container_network_transmit_packets_total |
容器网络传输数据包的累积计数。 |
||
container_processes |
容器当前运行的进程数。 |
||
container_sockets |
容器当前打开套接字的个数。 |
||
container_file_descriptors |
容器当前打开文件描述符的个数。 |
||
container_threads |
容器内当前运行的线程数。 |
||
container_threads_max |
容器内允许运行的最大线程数。 |
||
container_ulimits_soft |
容器内1号进程的软限制值。如果为-1,则无限制,优先级和nice除外。 |
||
container_tasks_state |
处于给定状态的任务数(sleeping,running,stopped,uninterruptible,ioawaiting)。 |
||
container_spec_cpu_period |
容器分配的CPU周期。 |
||
container_spec_cpu_shares |
容器分配的CPU份额。 |
||
container_spec_cpu_quota |
容器分配的CPU配额。 |
||
container_spec_memory_limit_bytes |
容器可以使用的总内存量限制。 |
||
container_spec_memory_reservation_limit_bytes |
容器可以使用的预留内存限制。 |
||
container_spec_memory_swap_limit_bytes |
容器可以使用的虚拟内存限制。 |
||
container_start_time_seconds |
容器已经运行的时间。 |
||
container_last_seen |
最近一次监控采集器感知到容器的时间。 |
||
container_accelerator_memory_used_bytes |
容器正在使用的GPU加速卡内存量。 |
||
container_accelerator_memory_total_bytes |
容器GPU加速卡可用内存总量。 |
||
container_accelerator_duty_cycle |
GPU加速卡实际运行时间百分比。 |
||
podMonitor/monitoring/everest-csi-controller/0 |
monitoring/everest-csi-controller |
everest_action_result_total |
不同功能的调用情况。 |
everest_function_duration_seconds_bucket |
不同功能在不同执行时间下的次数。 |
||
everest_function_duration_seconds_count |
不同功能的调用次数。 |
||
everest_function_duration_seconds_sum |
不同功能的调用时间总和。 |
||
everest_function_duration_quantile_seconds |
不同功能调用所需的时间分位数。 |
||
node_volume_read_completed_total |
读操作完成次数。 |
||
node_volume_read_merged_total |
读操作合并次数。 |
||
node_volume_read_bytes_total |
扇区读字节总数。 |
||
node_volume_read_time_milliseconds_total |
读操作总耗时。 |
||
node_volume_write_completed_total |
写操作完成次数。 |
||
node_volume_write_merged_total |
写操作合并次数。 |
||
node_volume_write_bytes_total |
扇区写字节总数。 |
||
node_volume_write_time_milliseconds_total |
写操作总耗时。 |
||
node_volume_io_now |
当前正在进行的I/O次数。 |
||
node_volume_io_time_seconds_total |
I/O操作总耗时。 |
||
node_volume_capacity_bytes_available |
可用容量。 |
||
node_volume_capacity_bytes_total |
总容量。 |
||
node_volume_capacity_bytes_used |
已用容量。 |
||
node_volume_inodes_available |
可用inode。 |
||
node_volume_inodes_total |
总inode。 |
||
node_volume_inodes_used |
已用inode。 |
||
node_volume_read_transmissions_total |
读取传输次数。 |
||
node_volume_read_timeouts_total |
读取超时次数。 |
||
node_volume_read_sent_bytes_total |
读取字节数。 |
||
node_volume_read_queue_time_milliseconds_total |
读取队列等待总耗时。 |
||
node_volume_read_rtt_time_milliseconds_total |
读取rtt总时长。 |
||
node_volume_write_transmissions_total |
写入传输总数。 |
||
node_volume_write_timeouts_total |
写入超时总数。 |
||
node_volume_write_queue_time_milliseconds_total |
写入队列等待总耗时。 |
||
node_volume_write_rtt_time_milliseconds_total |
写入rtt总时长。 |
||
node_volume_localvolume_stats_capacity_bytes |
本地存储卷总容量。 |
||
node_volume_localvolume_stats_available_bytes |
本地存储卷可用量。 |
||
node_volume_localvolume_stats_used_bytes |
本地存储卷已用量。 |
||
node_volume_localvolume_stats_inodes |
本地存储卷inodes数量。 |
||
node_volume_localvolume_stats_inodes_used |
本地存储卷inodes已用量。 |
||
podMonitor/monitoring/nginx-ingress-controller/0 |
monitoring/nginx-ingress-controller |
nginx_ingress_controller_bytes_sent |
发送到客户端的字节数。 |
nginx_ingress_controller_connect_duration_seconds |
与上游服务器建立连接所花费的时间。 |
||
nginx_ingress_controller_header_duration_seconds |
从上游服务器接收第一个报头所花费的时间。 |
||
nginx_ingress_controller_ingress_upstream_latency_seconds |
上行服务延迟。 |
||
nginx_ingress_controller_request_duration_seconds |
请求处理时间(以毫秒为单位)。 |
||
nginx_ingress_controller_request_size |
请求长度(包括请求行、请求头和请求体长度)。 |
||
nginx_ingress_controller_requests |
客户端请求的总数。 |
||
nginx_ingress_controller_response_duration_seconds |
从上游服务器接收响应所花费的时间。 |
||
nginx_ingress_controller_response_size |
响应长度(包括请求行、头和请求体长度)。 |
||
nginx_ingress_controller_nginx_process_connections |
当前处于活动、读取、写入、等待状态,每种状态各自的客户端连接数。 |
||
nginx_ingress_controller_nginx_process_connections_total |
自启动以来处于接受、已处理状态,每种状态各自的客户端连接总数。 |
||
nginx_ingress_controller_nginx_process_cpu_seconds_total |
Nginx进程消耗的CPU时间总量(以秒为单位)。 |
||
nginx_ingress_controller_nginx_process_num_procs |
进程数。 |
||
nginx_ingress_controller_nginx_process_oldest_start_time_seconds |
自1970/01/01以来的开始时间(以秒为单位)。 |
||
nginx_ingress_controller_nginx_process_read_bytes_total |
读取的字节总数。 |
||
nginx_ingress_controller_nginx_process_requests_total |
自启动以来,Nginx处理的请求总数。 |
||
nginx_ingress_controller_nginx_process_resident_memory_bytes |
进程的常驻内存集使用量,即实际占用的物理内存大小。 |
||
nginx_ingress_controller_nginx_process_virtual_memory_bytes |
进程的虚拟内存使用量,即分配给进程的总内存大小,包括实际物理内存和虚拟交换空间。 |
||
nginx_ingress_controller_nginx_process_write_bytes_total |
进程向磁盘或其他长期存储设备写入的总数据量。 |
||
nginx_ingress_controller_build_info |
一个带有常量“1”的度量,标记有关于构建的信息。 |
||
nginx_ingress_controller_check_success |
语法检查累计次数。 |
||
nginx_ingress_controller_config_hash |
运行配置的哈希值。 |
||
nginx_ingress_controller_config_last_reload_successful |
最后一次尝试重新加载配置是否成功。 |
||
nginx_ingress_controller_config_last_reload_successful_timestamp_seconds |
最后一次成功重新加载配置的时间戳。 |
||
nginx_ingress_controller_ssl_certificate_info |
保留与证书相关的所有信息。 |
||
nginx_ingress_controller_success |
重新加载操作的累计次数。 |
||
nginx_ingress_controller_orphan_ingress |
孤立ingress的状态,1表示孤立ingress。0 表示正常。 namespace:是用于标识ingress名称空间的字符串。 ingress:表示ingress名称。 type:表示孤立ingress的状态,取值为no-service或no-endpoint。 |
||
nginx_ingress_controller_admission_config_size |
准入控制器的配置大小。 |
||
nginx_ingress_controller_admission_render_duration |
准入控制器配置渲染所花费的时间。 |
||
nginx_ingress_controller_admission_render_ingresses |
准入控制器配置渲染的入口长度。 |
||
nginx_ingress_controller_admission_roundtrip_duration |
准入控制器处理新事件所花费的时间。 |
||
nginx_ingress_controller_admission_tested_duration |
准入控制器测试所花费的时间。 |
||
nginx_ingress_controller_admission_tested_ingresses |
准入控制器测试的入口长度。 |