更新时间:2024-12-18 GMT+08:00

仪表盘

仪表盘可将不同图表展示到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。

查看/切换视图

  1. 选择一个容器舰队或者未加入舰队的集群。

    图1 选择舰队或未加入舰队的集群

  2. 选择“仪表盘”页签,默认展示集群视图。
  3. 设置查看视图的相关参数。各个视图可供设置的参数不同,请参见表1
  4. 设置视图的时间窗。

    在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。

  5. 容器智能分析仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。系统预置视图如表1所示。

    表1 预置视图

    视图名称

    视图参数

    视图中包含的监控指标

    集群视图(默认视图)

    集群

    • 节点数/磁盘不可用节点数/不可用节点数
    • CPU/内存使用率
    • CPU/内存Requests水位
    • CPU/内存Limits水位
    • Pod/容器数
    • CPU/内存使用量
    • 网络接收/发送速率
    • 网络平均接收/发送速率
    • 接收/发送数据包速率
    • 丢包率(接收/发送)
    • 磁盘IOPS(读+写)
    • ThroughPut(读+写)

    APIServer视图

    • 集群
    • 实例
    • 存活数
    • QPS
    • 请求成功率(读)
    • 处理中请求数
    • 请求速率(读/写)
    • 请求错误率(读/写)
    • 请求时延(读/写)(99分位时延)
    • 工作队列增加速率/深度
    • 工作队列时延(99分位时延)
    • 内存/CPU使用量
    • Go routine数

    Pod视图

    • 集群
    • 命名空间
    • pod
    • 容器数/运行中容器数
    • Pod状态
    • 容器重启次数
    • CPU/内存使用量
    • CPU Throttling
    • 网络接收/发送速率
    • 接收/发送数据包速率
    • 丢包率(接收/发送)
    • 磁盘IOPS(读+写)
    • ThroughPut(读+写)
    • 文件系统使用率/使用量

    主机视图

    • 集群
    • 节点
    • CPU/内存使用率
    • 平均负载
    • 内存使用量
    • 磁盘写入/读取速率
    • 磁盘空间使用
    • 磁盘IO

    Node视图

    • 集群
    • 节点
    • CPU/内存使用率
    • CPU/内存Requests水位
    • CPU/内存Limits水位
    • 内存使用量
    • 网络接收/发送速率
    • 接收/发送数据包速率(Pod)
    • 接收/发送数据包速率
    • 丢包率(接收/发送)
    • 磁盘IOPS(读+写)
    • ThroughPut(读+写)

    CoreDNS视图

    • 集群
    • 实例
    • 请求速率(记录类型/区域/DO标志位)
    • 请求数据包(UDP/TCP)
    • 响应速率(响应状态码)
    • 响应时延
    • 响应数据包(UDP/TCP)
    • 缓存大小
    • 缓存命中率

    PVC视图

    • 集群
    • 命名空间
    • PV
    • PVC
    • PV/PVC状态
    • PVC使用量/使用率
    • PVC inodes使用量/使用率
    • PVC每小时/每天/每周使用率
    • 一周后PVC使用量

    Kubelet

    • 集群
    • 实例
    • 运行中Kubelet/Pod/容器
    • 实际卷/期望卷/配置错误数量
    • 操作速率/错误率/时延
    • Pod启动速率/时延(99分位)
    • 存储操作速率/错误率/时延(99分位)
    • 控制组管理器操作速率/时延(99分位)
    • PLEG relist速率/间隔/时延(99分位)
    • RPC速率
    • 请求时延(99分位)
    • 内存/CPU使用量
    • Go routine数

    Prometheus

    • 集群
    • job
    • instance
    • Target同步间隔
    • Target数
    • 平均拉取间隔
    • 拉取失败
    • Appended Samples
    • Head中Series数/Chunks数
    • 查询速率/阶段时延

    Prometheus Remote Write

    • 集群
    • 实例
    • url
    • Highest Timestamp In vs. Highest Timestamp Sent
    • Rate5m
    • Rate in vs. succeeded or dropped 5m
    • 当前/最大/最小/期望分片数
    • 分片容量
    • 挂起样本数
    • TSDB/远程写入当前段
    • 样本丢弃率/失败率/重试率
    • 入队失败重试率

    GPU视图

    集群

    • 集群-显存使用率
    • 集群-算力使用率
    • 节点-显存使用量
    • 节点-显存使用率
    • 节点-算力使用率
    • GPU卡-显存使用量
    • GPU卡-算力使用率
    • GPU卡-温度
    • GPU卡-显存频率
    • GPU卡-PCle带宽

    XGPU视图

    集群

    • 集群--XGPU设备显存使用率
    • 集群--XGPU设备算力使用率
    • 节点--XGPU设备显存使用率
    • 节点--XGPU设备算力使用率
    • 节点--XGPU设备数量
    • 节点--XGPU设备显存分配量
    • GPU卡--XGPU设备显存使用率
    • GPU卡--XGPU设备显存分配量
    • GPU卡--XGPU设备显存分配率
    • GPU卡--XGPU设备算力使用率
    • GPU卡--XGPU设备数量
    • GPU卡--调度策略
    • GPU卡--不健康的XGPU设备数量
    • 容器显存分配量
    • 容器算力使用率
    • 容器显存使用量
    • 容器显存使用率