概述
监控中心是华为云打造的新一代云原生容器运维平台,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力,兼容主流开源组件,并提供快捷故障定位的能力。
CCI 2.0支持Pod资源基础监控能力,提供CPU、内存、磁盘、网络等多种监控指标,满足对Pod资源的基本监控需求。Pod内置系统Agent,默认会以HTTP服务的形式提供Pod和容器的监控指标。Agent集成到Pod里面,会占用Pod内资源,建议您预留30MiB的内存。
功能介绍
- 多维度数据洞察:提供CCI容器监控能力,支持CPU相关指标、内存相关指标、网络相关指标、容器相关指标的指标展示,全面监控CCI的健康状态和负荷程度。您可以通过CCI控制台或AOM控制台查看Pod资源监控基础指标范围,详情可参见Pod资源监控基础指标范围。
- 仪表盘:通过AOM仪表盘,使用普罗语句查询相关监控指标,可以将不同图表汇聚到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。
Pod资源监控基础指标范围
资源基础监控包含CPU/内存/磁盘等类别,具体请参见表1 资源监控指标。
| 指标类别 | 指标名称 | 指标含义 | 
|---|---|---|
| CPU | container_cpu_system_seconds_total | 容器系统CPU总时长 | 
| container_cpu_usage_seconds_total | 容器在所有CPU内核上的累积占用时间 | |
| container_cpu_user_seconds_total | 容器用户CPU总时长 | |
| container_cpu_cfs_periods_total | 容器已经执行的CPU时间周期数 | |
| container_cpu_cfs_throttled_periods_total | 容器被限流的CPU时间周期数 | |
| container_cpu_cfs_throttled_seconds_total | 容器被限流的CPU时间 | |
| 文件系统/磁盘 | container_fs_inodes_free | 文件系统的可用inode数量 | 
| container_fs_usage_bytes | 文件系统的使用量 | |
| container_fs_inodes_total | 文件系统的总计inode数量 | |
| container_fs_io_current | 磁盘/文件系统当前正在进行的 I/O 数量 | |
| container_fs_io_time_seconds_total | 磁盘/文件系统花费在 I/O 上的累计秒数 | |
| container_fs_io_time_weighted_seconds_total | 磁盘/文件系统累积加权 I/O 时间 | |
| container_fs_limit_bytes | 容器可以使用的磁盘/文件系统总量 | |
| container_fs_reads_bytes_total | 容器累积读取磁盘/文件系统数据的总量 | |
| container_fs_read_seconds_total | 容器累积读取磁盘/文件系统数据的秒数 | |
| container_fs_reads_merged_total | 容器合并读取磁盘/文件系统的累积计数 | |
| container_fs_reads_total | 容器已完成读取磁盘/文件系统的累积计数 | |
| container_fs_sector_reads_total | 容器已完成扇区读取磁盘/文件系统的累积计数 | |
| container_fs_sector_writes_total | 容器已完成扇区写入磁盘/文件系统的累积计数 | |
| container_fs_writes_bytes_total | 容器累积写入磁盘/文件系统数据的总量 | |
| container_fs_write_seconds_total | 容器累计写入磁盘/文件系统的秒数 | |
| container_fs_writes_merged_total | 容器合并写入磁盘/文件系统的累积计数 | |
| container_fs_writes_total | 容器已完成写入磁盘/文件系统的累积计数 | |
| container_blkio_device_usage_total | 容器区分IO操作对磁盘的使用总量 | |
| 内存 | container_memory_failures_total | 容器内存分配失败的累积计数 | 
| container_memory_failcnt | 容器内存使用达到限制的次数 | |
| container_memory_cache | 容器总页缓存内存 | |
| container_memory_mapped_file | 容器内存映射文件的大小 | |
| container_memory_max_usage_bytes | 容器历史最大内存使用量 | |
| container_memory_rss | 容器常驻内存集的大小 | |
| container_memory_swap | 容器虚拟内存使用量 | |
| container_memory_usage_bytes | 容器当前的内存使用量 | |
| container_memory_working_set_bytes | 容器工作集内存使用量 | |
| 网络 | container_network_receive_bytes_total | 容器网络累积接收数据总量 | 
| container_network_receive_errors_total | 接收时遇到的错误累积计数 | |
| container_network_receive_packets_dropped_total | 接收时丢弃的数据包的累积计数 | |
| container_network_receive_packets_total | 接收数据包的累积计数 | |
| container_network_transmit_bytes_total | 容器网络累积传输数据总量 | |
| container_network_transmit_errors_total | 传输时遇到的错误累积计数 | |
| container_network_transmit_packets_dropped_total | 传输时丢弃的数据包的累积计数 | |
| container_network_transmit_packets_total | 传输数据包的累积计数 | |
| 容器spec/状态 | container_processes | 容器当前运行的进程数 | 
| container_sockets | 容器当前打开套接字的个数 | |
| container_file_descriptors | 容器打开的文件描述符数量 | |
| container_threads | 容器内当前运行的线程数 | |
| container_threads_max | 容器内允许运行的最大线程数 | |
| container_ulimits_soft | 容器内1号进程的软 ulimit 值。如果为-1,则无限制,优先级和nice除外 | |
| container_spec_cpu_period | 容器分配的CPU周期 | |
| container_spec_cpu_shares | 容器分配的CPU份额 | |
| container_spec_cpu_quota | 容器分配的CPU配额 | |
| container_spec_memory_limit_bytes | 容器可以使用的总内存量限制 | |
| container_spec_memory_reservation_limit_bytes | 容器可以使用的预留内存限制 | |
| container_spec_memory_swap_limit_bytes | 容器可以使用的虚拟内存限制 | |
| container_start_time_seconds | 容器已经运行的时间 | |
| container_last_seen | 最近一次监控采集器感知到容器的时间 | |
| 对象状态指标 | kube_pod_info | Pod信息 | 
| kube_pod_owner | Pod的Owner信息 | |
| kube_pod_container_resource_limits | 容器的资源limits | |
| kube_replicaset_owner | RS的所有者信息 | 
 
    