更新时间:2024-08-17 GMT+08:00

通过CCE配置自定义告警

当默认的告警规则无法满足您的述求时,可以创建自定义告警规则。通过在CCE中创建告警规则,您可以及时了解集群中各种资源是否存在异常。

添加指标类告警示例

  • 基于Prometheus指标的阈值告警规则,指标告警规则依赖开通监控中心,请前往监控中心一键开通。详情请参见开通监控中心
  • 部分指标模板依赖CCE节点故障检测插件(NPD)进行上报,指标详情请参见表1。如需要使用相关的告警规则,请确保节点故障检测插件(NPD)已安装且正常运行。
  1. 登录CCE控制台,单击集群名称进入一个已有的集群。
  2. 在左侧导航栏选择“告警中心”,切换至“告警规则 > 自定义告警规则”页签,单击“创建告警规则”。
  3. 设置告警规则,在创建告警规则面板填写配置。

    • ​规则类型:选择“指标告警”,设置基于Prometheus指标的阈值告警规则。
    • 告警模板:不使用模板场景下,需填写手动规则详情。您也可以使用告警模板,快速定义告警规则(PromQL)或基于已有模板进行修改。
    • 规则详情:

      参数

      说明

      场景示例

      规则名称

      自定义告警规则的名称

      CoreDNS内存使用率超过百分之八十

      描述(可选)

      添加告警规则描述。

      检查CoreDNS容器内存使用率是否大于80%。

      告警规则(PromQL)

      输入普罗查询语句。关于如何编写普罗查询语句,请参见查询示例

      本例中设置CoreDNS当内存使用率的最大值大于80%产生告警,示例如下:
      (sum(container_memory_working_set_bytes{image!="", container!="POD",namespace="kube-system",container="coredns"}) BY (cluster_name, node,container, pod , namespace, cluster) / sum(container_spec_memory_limit_bytes{namespace="kube-system", container="coredns"} > 0) BY (cluster_name, node, container, pod , namespace, cluster) * 100) > 80

      ​告警等级

      根据重要性选择告警等级,分为“紧急”、“重要”、“次要”、“提示”四个等级。

      紧急

      持续时长

      通过下拉菜单选择告警持续时长,默认为1分钟。

      1分钟

      告警内容

      定义告警通知中的内容,可通过“${变量}”的形式捕获Prometheus中的变量

      示例如下:

      集群:${cluster_name}/命名空间:${namespace}/Pod:${pod}/容器:${container} 内存使用率超过80%, 当前值${value}%。

      ​联系组

      选择一个已有的联系组。您也可以单击“新建联系组”进行创建,配置参数详情请参见配置告警通知人

      CCEGroup

      上述示例为kube-system空间下的CoreDNS设置一条名为“CoreDNS内存使用率超过百分之八十”的告警规则,告警等级为紧急。当内存使用率的最大值大于80%,且持续了1分钟时,给联系组CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。 通知内容包含集群名称、命名空间、Pod名称、容器名称以及当前的内存使用率。

    • 高级设置(可选)
      • 告警标签:添加告警标识性属性,用于告警降噪分组条件,标签值可用在通知内容模板中以$event.metadate.标签名被引用。一共可以添加10个告警标签。
      • 告警标注:添加告警非标识性属性,标注值可用在通知内容模板中以$event.annotations.标注名被引用。一共可以添加10个告警标注。

  4. 单击“确定”,然后可前往自定义告警规则列表中查看规则是否创建成功。

添加事件类告警

  • 基于事件触发的告警规则依赖开通日志中心并开启Kubernetes事件采集,前往日志中心一键开通。详情请参见通过云原生日志采集插件采集容器日志
  • 部分指标模板依赖CCE节点故障检测插件(NPD)进行上报,指标详情请参见表1。如需要使用相关的告警规则,请确保节点故障检测插件(NPD)已安装且正常运行。
  1. 登录CCE控制台,单击集群名称进入一个已有的集群。
  2. 在左侧导航栏选择“告警中心”,切换至“告警规则 > 自定义告警规则”页签,单击“创建告警规则”。
  3. 设置告警规则,在创建告警规则面板填写配置。

    • ​规则类型:选择“事件告警”,设置基于事件触发的告警规则,常见事件来源为Kubernetes事件和云服务事件。
    • 规则详情:

      参数

      说明

      场景示例

      规则名称

      自定义告警规则的名称

      ReplicaSet副本数变化

      描述(可选)

      添加告警规则描述。

      ReplicaSet副本数在5分钟内变化次数超过3次

      事件名称

      输入事件的名称,该名称需要与实际产生的Kubernetes事件或云服务事件相匹配。具体事件名称可请参见CCE事件列表

      ScalingReplicaSet

      触发方式

      • 立即触发:只要事件出现即发生告警。
      • 累计触发:在指定的监控周期内,累计次数满足数值要求,才会发生告警。

      选择“累计触发”,并设置监控周期为“5分钟”,累计次数为“> 3”

      ​告警等级

      根据重要性选择告警等级,分为“紧急”、“重要”、“次要”、“提示”四个等级。

      次要

      ​联系组

      选择一个已有的联系组。您也可以单击“新建联系组”进行创建,配置参数详情请参见配置告警通知人

      CCEGroup

      上述示例为ScalingReplicaSet事件设置一条名为“ReplicaSet副本数变化”的告警,告警等级为次要。当5分钟内累计次数超过3次时,CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。

  4. 单击“确定”,然后可前往自定义告警规则列表中查看规则是否创建成功。