更新时间:2025-08-07 GMT+08:00

监控云容器引擎 CCE的指标

云容器引擎 CCE是一个企业级的集群托管服务,基于云服务器快速构建高可靠的容器集群,帮助您轻松创建和管理多样化的容器工作负载。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的效率。当CCE对接AOM后,支持将云容器引擎 CCE的集群信息上报至AOM,AOM可以实时监控CCE集群的状态和性能等,并提供告警通知。

您可通过在AOM中设置告警规则,及时了解CCE集群中各种资源是否存在异常,全面掌握集群的实时运行状况。本章节以监控云容器引擎 CCE的CPU使用率指标“aom_container_cpu_usage”,当该指标达到告警阈值条件时,产生告警为例,帮助您快速上手使用应用运维管理。

操作流程

  1. 开通AOM 2.0并授权
  2. 容器监控:在云容器引擎 CCE购买集群和节点后,自动安装ICAgent插件,将CCE集群指标上报到AOM,用户无需手动接入。
  3. 配置告警通知规则:通过创建告警通知规则关联SMN主题与消息模板,当CCE的指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。如果不需要发送邮件、短信等告警通知,可以不配置告警通知规则。
  4. 配置告警规则:通过创建告警规则对CCE的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。

准备工作

本章节以监控云容器引擎 CCE的指标为例,需要提前在CCE中购买集群和节点。如果您已有可用的集群和节点,可重复使用,不需要再次购买。

首次开通AOM 2.0并授权

  1. 注册账号并实名认证。

    使用AOM 2.0前,需要先注册一个账号并进行实名认证。

  2. 开通AOM 2.0。

    使用AOM 2.0前,需要先开通AOM 2.0。如果您已开通AOM 2.0,可直接跳过如下操作。

    1. 登录管理控制台。
    2. 在左上角单击,在下拉列表中选择操作区域。
    3. 单击左侧,选择“ 管理与部署> 应用运维管理 AOM”,进入AOM服务页面。在左侧导航栏单击“体验新版”,进入AOM 2.0服务页面。
    4. 在弹出的“通知”对话框中仔细阅读从AOM 1.0切换到AOM 2.0计费方式变化的说明。
    5. 单击“授权”,然后在“云服务授权”页面中仔细阅读授权声明后,勾选“我已阅读并同意授权声明”。
    6. 单击“免费开通服务并授权”,即可免费开通AOM 2.0服务。
  3. 为用户添加应用运维管理AOM和云容器引擎CCE的操作权限。

    您需要有AOM的管理员权限“AOM FullAccess”和CCE的管理员权限“CCE FullAccess”。

容器监控

  1. 登录AOM 2.0控制台。
  2. 在左侧导航栏选择“基础设施监控 > 容器洞察 > 工作负载”,进入“工作负载”页面。
  3. 单击任一工作负载页签下的工作负载名称,可查看该工作负载的名称、状态、集群、命名空间等详细信息。例如监控工作负载“coredns”,其所属集群名称为“aom-doc-test”。

    如需监控其他工作负载,可为CCE集群创建工作负载。

配置告警通知规则

  1. 在左侧导航栏选择“告警中心 > 告警通知”。
  2. 在“通知规则管理”页签下,单击“创建告警通知规则”,参考表1填写参数。

    表1 告警通知规则参数说明

    参数名称

    说明

    示例

    通知规则名称

    告警通知规则的名称,只能由数字、字母、下划线和中划线组成,且不能以下划线或中划线开头和结尾,最多可输入100个字符。

    Mon_aom

    企业项目

    选择业务需要的企业项目,默认为default。
    • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
    • 如果在全局页面已选择企业项目,则此处灰化不可选。
    • 企业项目功能当前受限开放,如有需要请联系工程师为您开放。

    default

    描述

    告警通知规则的描述信息,最多可输入1024个字符。本示例可不填写。

    -

    通知规则类型

    告警通知规则的类型。此处选择“Prometheus监控”。

    Prometheus监控:当指标或事件满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。

    Prometheus监控

    主题

    SMN主题,请从下拉列表中选择。

    若没有合适的主题,请单击主题选择栏下方“创建主题”,在SMN界面创建。

    -

    消息模板

    通知消息的模板,请从下列列表中选择。

    若没有合适的消息模板,请单击消息模板选择栏右侧“创建消息模板”,新建消息模板。

    -

  3. 设置完成后,单击“确定”。

配置告警规则

按照配置方式的不同,创建指标告警规则可分为:按全量指标创建按Prometheus命令创建

下面的操作以按全量指标创建告警规则为例说明。

  1. 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建告警规则”。
  2. 设置告警规则基本信息,具体的参数说明如表2所示。

    表2 基本信息填写说明

    参数名称

    说明

    示例

    规则原始名称

    规则原始名称。最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入特殊字符。

    monitor_cce

    规则名称

    规则的名称。最多可输入256个字符,只能包含中文、字母、数字、特殊字符(_-【】),开头、结尾不允许输入中划线、下划线。

    -

    企业项目

    选择业务需要的企业项目,默认为default。
    • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
    • 如果在全局页面已选择企业项目,则此处灰化不可选。
    • 企业项目功能当前受限开放,如有需要请联系工程师为您开放。

    default

    描述

    规则的描述信息,最多可输入个字符。本示例可不填写。

    -

  3. 设置告警规则的详细信息。

    1. “规则类型”选择“指标告警规则”。
    2. “配置方式”选择“全量指标”,通过配置多种类型资源的告警条件创建告警规则。
    3. 从下拉列表选择需要创建告警的Prometheus实例。例如,此处选择“Prometheus_AOM_Default”。
    4. 设置告警规则详情。具体的参数说明如表3所示。

      设置完成后,监控的指标数据以折线图形式显示在告警条件上方。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。

      表3 告警规则详情填写说明

      参数名称

      参数说明

      示例

      多指标

      按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。

      多指标

      指标

      需要监控的指标。单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。

      aom_container_cpu_usage

      统计周期

      指标数据按照所设置的统计周期进行聚合。

      1分钟

      条件

      指标监控的维度。不设置则表示选中全部资源。此处根据3中监控的工作负载设置条件。

      集群名称=aom-doc-test AND 工作负载名称=coredns

      分组条件

      指标数据按指定字段分组聚合,对聚合的结果进行运算。

      不分组

      检测规则

      指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。

      “平均值 > 10”

      触发条件

      连续多少个周期满足阈值条件后,触发指标告警。

      3

      告警级别

      指标告警的级别。

  4. 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表4

    表4 “高级设置”填写说明

    参数名称

    参数说明

    示例

    检查频率

    根据设置的频率对指标数据查询和分析结果进行检查。

    固定间隔 1分钟

    告警恢复

    连续多少个周期不满足告警条件,恢复告警。

    1

    无数据处理

    监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

    开启:连续周期“1”达到数据不足,状态设置“数据不足并发送告警”

    告警规则标签

    单击添加告警规则标签。告警规则标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。本示例可不填写。

    详细说明请参见标签和标注

    -

    告警规则标注

    单击添加告警规则标注。告警规则标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。本示例可不填写。

    详细说明请参见标签和标注

    -

  5. 设置告警通知策略。具体参数说明请参见表5

    表5 告警通知策略填写说明

    参数名称

    参数说明

    示例

    通知场景

    设置发送告警通知的场景。系统默认选择“告警触发时”和“告警恢复时”。

    • 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
    • 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。

    保持系统默认选择

    告警方式

    • 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用通知规则。
    • 通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。
    • 通知规则:启用通知规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警通知规则无法满足需要,可在下拉列表中单击“新建告警通知规则”添加。设置告警通知规则的操作详见配置告警通知规则

    告警方式:直接告警

    通知频率:只通知一次

    通知规则:Mon_aom

  6. 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。

    在展开的列表中,当指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警中心 > 告警列表”,在告警列表中查看该告警。当指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

相关信息

告警规则配置完成后,您还可以根据需要执行以下操作:

  • 在工作负载详情页的“告警”页签查看告警;也可在“告警中心 > 告警列表”中查看告警,详情请参见查看AOM告警或事件
  • 使用不同的配置方式创建指标告警规则,详情请参见创建AOM指标告警规则