更新时间:2024-07-05 GMT+08:00

云原生监控插件

插件简介

云原生监控插件(kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。

使用kube-prometheus-stack可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。

开源社区地址:https://github.com/prometheus/prometheus

权限说明

云原生监控插件中的node-exporter组件会监控Docker的存储磁盘空间,需要读取宿主机的/var/run/docker.sock的获取Docker的info的数据。

node-exporter运行需要以下特权:

  • cap_dac_override:读取Docker的info的数据。

安装插件

  1. 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到云原生监控插件,单击“安装”
  2. 在安装插件页面,选择插件版本。
  3. 配置相关参数。

    • 对接AOM:将普罗数据上报至 AOM 服务。开启后,可选择对应的AOM实例。采集的基础指标免费,自定义指标将由AOM服务进行收费,详情请参见价格详情。对接AOM需要用户具备一定权限,目前仅华为云/华为账号,或者在admin用户组下的用户支持此操作。
    • 自定义指标HPA:以服务发现的形式自动采集应用的指标用于HPA。开启后需要在目标应用添加相关配置,详情请参见使用自定义指标创建HPA策略

  4. 完成以上配置后,单击“安装”

    插件安装完成后,,根据您的使用需求,可能还需进行以下操作。

    • 如果您需要使用该插件为工作负载弹性伸缩提供系统资源指标(如CPU、内存使用量),还需要开启Metric API,详情请参见通过Metrics API提供资源指标。配置完成后,可使用Prometheus采集系统资源指标。

组件说明

安装kube-prometheus-stack插件创建的Kubernetes资源,全部都创建在monitoring命名空间下。

表1 kube-prometheus-stack组件

容器组件

说明

资源类型

prometheusOperator

(负载名称:prometheus-operator)

根据自定义资源(Custom Resource Definition / CRDs)来部署和管理Prometheus Server,同时监控这些自定义资源事件的变化来做相应的处理,是整个系统的控制中心。

Deployment

prometheus

(负载名称:prometheus-lightweight)

Operator根据自定义资源Prometheus类型中定义的内容而部署Prometheus Server集群,这些自定义资源可以看作是用来管理Prometheus Server集群的StatefulSets资源。

StatefulSet

kubeStateMetrics

(负载名称:kube-state-metrics)

将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。

说明:

该组件如果存在多个Pod,只会有一个Pod暴露指标。

Deployment

nodeExporter

(负载名称:node-exporter)

每个节点上均有部署,收集Node级别的监控数据。

Pod

adapter

(负载名称:custom-metrics-apiserver)

将自定义指标聚合到原生的Kubernetes API Server。

Deployment

通过Metrics API提供资源指标

容器和节点的资源指标,如CPU、内存使用量,可通过Kubernetes的Metrics API获得。这些指标可以直接被用户访问,比如用kubectl top命令,也可以被HPA或者CustomedHPA使用,根据资源使用率使负载弹性伸缩。

插件可为Kubernetes提供Metrics API,但默认未开启,若要将其开启,需要创建以下APIService对象:

apiVersion: apiregistration.k8s.io/v1
kind: APIService
metadata:
  labels:
    app: custom-metrics-apiserver
    release: cceaddon-prometheus
  name: v1beta1.metrics.k8s.io
spec:
  group: metrics.k8s.io
  groupPriorityMinimum: 100
  insecureSkipTLSVerify: true
  service:
    name: custom-metrics-apiserver
    namespace: monitoring
    port: 443
  version: v1beta1
  versionPriority: 100

可以将该对象保存为文件,命名为metrics-apiservice.yaml,然后执行以下命令:

kubectl create -f metrics-apiservice.yaml

执行kubectl top pod -n monitoring命令,若显示如下,则表示Metrics API能正常访问:

# kubectl top pod -n monitoring
NAME                                                      CPU(cores)   MEMORY(bytes)
......
custom-metrics-apiserver-d4f556ff9-l2j2m                  38m          44Mi
......

卸载插件时,需要执行以下kubectl命令,同时删除APIService对象,否则残留的APIService资源将导致metrics-server插件安装失败。

kubectl delete APIService v1beta1.metrics.k8s.io

使用自定义指标创建HPA策略

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 在左侧导航栏中选择“配置与密钥”,单击“YAML创建”,自定义采集规则示例如下。

    如果您需要增加多个采集规则,可在rules字段下添加多个配置,关于采集规则配置详情请参见Metrics Discovery and Presentation Configuration

    kind: ConfigMap
    apiVersion: v1
    metadata:
      name: user-adapter-config
      namespace: monitoring
    data:
      config.yaml: |-
        rules:
        - seriesQuery: 'container_network_receive_bytes_total{namespace!="",pod!=""}' # 扩容需要的原始指标(指标来源kubelet)
          seriesFilters: []
          resources:
            overrides:
              namespace:
                resource: namespace
              pod:
                resource: pod
          name:
            matches: container_(.*)_total
            as: "pod_${1}_per_second"  # 采集指标的别名
          metricsQuery: sum(rate(<<.Series>>{<<.LabelMatchers>>}[30s])) by (<<.GroupBy>>) # 负载下所有容器的30s内指标变化率

    以上示例中,聚合时间为30s,如果该参数设置小于15s采集周期,可能会导致指标不准确。

  3. 在左侧导航栏中选择“插件中心”,在右侧找到云原生监控插件,单击“编辑”,并开启“自定义指标HPA”功能。

    完成后,单击“安装”

    您需要先创建2中的自定义采集规则,然后打开“自定义指标HPA”功能触发插件重新部署,自定义指标采集才可以生效。

  4. 在左侧导航栏中选择“工作负载”,找到需要创建HPA策略的工作负载单击“更多>弹性伸缩”。您可在“自定义策略”中选择上述参数创建弹性伸缩策略。

    当负载创建后,请您等待Pod ready并完成第一个采集周期的指标采集后,再创建HPA策略。

    图1 创建HPA策略