更新时间:2025-09-16 GMT+08:00
分享

配置容器监控指标并查看异常监控

安装cluster-monitoring插件到集群后并配置容器指标,数据异常时会上报至告警列表。

配置容器监控指标并查看异常监控

  1. 单击,选择运维 > 弹性资源服务(ERS)
  2. 选择左侧导航栏的“插件中心”。
  3. 单击需要使用的插件模板的“创建”,打开“插件模板列表”页面。
  4. 选择“监控插件cluster-monitoring”,单击“安装”,然后配置插件参数,具体如表1所示,配置完成后,单击“确定”。

    图1 安装插件
    表1 插件参数

    参数名称

    示例

    参数说明

    选择集群

    erscluster-3dpt-WiseEyePOCProductA-turbo-cce-appstage-poc-test-001

    选择需要安装插件的集群,可选集群为已纳管集群。

    选择版本号

    1.0.20241127103214

    选择需要使用的插件模板的版本号。

    变量文件名称

    values-cn-cbu-product.yaml

    选择插件模板的变量文件。

    工作负载

    -

    安装cluster-monitoring、pod-upstream-controller插件时可以查看需要使用的工作负载。

    自定义变量

    -

    单击“添加”设置键值对形式的应答。也可以进行批量添加,批量添加格式为{"k1":"v1","k2":"v2"}。

    可单击“复制”,复制已设置的键值对应答,复制的应答格式为{"k1":"v1","k2":"v2"}。

    创建aiopslogdaemonset、cluster-monitoring插件时需要新增键值,具体值可根据实际需要设置,其余插件使用默认值。

    aiopslogdaemonset:

    filebeat.aiops_log_dir={业务的hostPath} #filebeat采集的业务日志路径

    cluster-monitoring:

    • alertmanager.replicas=0 #AlertManager工作负载POD实例个数
    • event_adapter.replicas=0 #EventAdapter工作负载POD实例个数
    • event_exporter.replicas=0 #EventExporter工作负载POD实例个数
    • kafkadapter.mem_request=1Gi #KafkaAdapter工作负载申请内存大小
    • prometheus.cpu_reuquest=1 #prometheus工作负载申请CPU核心数
    • prometheus.mem_request=2Gi #prometheus工作负载申请内存大小
    • prometheus.replicas=1 #prometheus工作负载POD实例个数

  5. 单击“确定”,提示安装成功。待状态由“Pending”变更为“Active”,安装完成。
  6. 单击,选择“运维 > 监控服务(ServiceInsight)”。
  7. 选择左侧导航栏的告警 > 策略配置
  8. 单击“统一告警定义”,进入告警定义页面,默认显示“模板告警”页签。
  9. 在“模板告警”页签,单击“创建”。
  10. 配置监控指标模板规则参数,参数说明如表2所示,配置完成后,单击“确定”。

    表2 监控指标模板规则参数说明

    参数名称

    示例

    参数说明

    指标来源

    监控指标

    选择告警的指标来源“监控指标”。

    告警定义名称

    XX集群的内存使用率超过70%

    设置告警定义的名称,长度不超过512个字符,告警定义名称支持如下两种命名方式:

    • 普通命名。
    • 表达式命名,使用{{$labels.变量名}}命名,支持的变量如下:
      • cluster:所在ERS集群名称
      • namespace:命名空间
      • workload:工作负载
      • tenant_id:租户ID
      • application_id:应用ID
      • service_id:服务ID
      • site:站点

    级别

    提示

    选择该规则生成告警的级别,包括提示、一般、严重和紧急。

    告警类型

    AIOps@rate

    选择告警类型,上报的告警会显示类型信息,可根据类型筛选查看告警。

    持续时间

    5

    设置指标持续异常的时间。

    以持续时间5min为例,需要连续满足5min内的计算点全部异常才会生成告警,否则就不会生成。

    持续时间控制了当前指标生成告警的速率。

    运行模式

    容器

    选择告警定义规则的运行模式,是主机还是容器。

    是否激活

    是否激活这条告警定义。

    监控指标的告警定义需要推送到监控模块才能生效。如果不激活,则仅在告警侧保存,不会生效。

    是否调试

    选择是否调试。

    如果开启调试,当这个模板检测出来的告警上报时,告警侧会将对应告警打上debug的标签,用于存库留痕,并且对应的告警不会触发任何通知,包括语音、短信、WeLink。

    指标名称

    pod_container_cpu_rate

    选择指标。

    当前集群采集的指标类型有:

    • pod_container_cpu_rate: 容器cpu使用率
    • pod_container_restarts_count_30m: 容器在30分钟内重启次数
    • container_memory_rss_utilization: 容器rss内存使用率
    • cluster_cpuratre_avg: cce集群cpu平均使用率
    • cluster_memratre_avg: cce集群内存平均使用率

    比较方式

    固定阈值 >=70%

    • 区间阈值分为在区间内和在区间外。
      • 在区间内:指数据值满足在该范围内则指标正常,否则异常。
      • 在区间外:指数据值满足不在该范围内则指标正常,否则异常。
    • 固定阈值是指数据不满足当前设置表达式则指标异常,有四种表达式,包括大于等于、小于、等于和不等于。
    • 同比是计算指标的时刻,与前一天同一时刻的比较,根据前一条的值的大小来决定当前指标是否异常。

    告警标签

    集群=erscluster-3dpt-WiseEyePOCProductA-turbo-cce-appstage-poc-test-001

    当运行模式为“容器”时为必填。

    消息模板

    XX集群的内存使用率超过70%

    消息模板是生成告警的msg字段中的具体信息,可选变量名由指标来决定,每一个指标都有自己对应的变量名列表。

    表达式

    -

    单击“获取”后系统自动生成。

  11. 数据异常时,在“告警 > 告警列表”即可查看已配置的容器异常指标告警。

相关文档