更新时间:2024-06-17 GMT+08:00

为华为云集群开启监控

本章节讲述为华为云集群开启监控的操作流程。

约束与限制

华为云集群开启监控之前,有可能已经安装了kube-prometheus-stack插件,若该插件处于“安装中”、“升级中”、“删除中”和“回滚中”状态时,不允许开启监控。插件的状态说明请参见插件状态说明

前提条件

已将华为云集群注册到UCS中,具体操作请参见华为云集群

操作步骤

  1. 登录UCS控制台,在左侧导航栏中单击“容器智能分析”
  2. 选择一个容器舰队或者未加入舰队的集群,并单击右上角“开启监控”按钮。

    图1 选择舰队或未加入舰队的集群

  3. 选择一个华为云集群。
  4. 单击“下一步:接入配置”,完成指标采集配置。

    规格配置

    • 部署模式:支持Agent模式和Server模式。Agent模式占用集群资源较低,为集群提供普罗指标采集能力,但不支持基于自定义普罗语句的HPA及健康诊断功能。Server模式为集群提供普罗指标采集能力,支持基于自定义普罗语句的HPA及健康诊断功能,依赖PVC,内存消耗较大。
    • 插件规格:如果部署模式选择“Agent模式”,插件规格为默认值。如果部署模式选择“Server模式”,插件规格包括演示规格(100容器以内)、小规格(2000容器以内)、中规格(5000容器以内)和大规格(超过5000容器)四种规格。不同规格对集群的CPU、内存等资源要求不同。不同插件规格占用的资源配额可参考不同规格的资源配额要求

    参数配置

    • 对接方式:当前仅支持接入AOM服务。
    • AOM实例:容器监控会将指标统一上报给AOM服务,因此需要选择一个Prometheus for CCE 类型的AOM实例。默认指标是免费的,而自定义指标将由AOM服务收费。
    • 采集周期:普罗采集指标数据并上报的时间周期。取值范围10~120秒,默认为15秒。
      存储:(部署模式选择“Server模式”时需要配置)用于普罗数据的临时存储(PVC),华为云集群默认使用云硬盘(csi-disk-topology)存储类型的PVC。如果命名空间monitoring下已存在可使用的PVC(pvc-prometheus-server),则可以使用该存储作为存储源。
      • 云硬盘类型:可选择高IO、超高IO、普通IO。
      • 容量:为创建PVC时指定的容量大小或者选择Pod存储时的存储最大限制值。

      插件存储使用云硬盘会产生额外费用,请参考价格详情

    关于插件的详细说明请参见kube-prometheus-stack插件

  5. 单击“确认接入”,自动返回至“容器洞察 > 集群总览”页面,集群的接入状态为“安装中”

    等待集群开启成功后,列表中将显示集群的CPU使用率、CPU分配率等指标,说明集群已经处于容器智能分析的守护中了。

    若集群开启失败,请参考常见问题处理。