通过CCE配置自定义告警

当默认的告警规则无法满足您的诉求时，可以创建自定义告警规则。通过在CCE中创建告警规则，您可以及时了解集群中各种资源是否存在异常。

添加指标类告警示例

基于Prometheus指标的阈值告警规则，指标告警规则依赖开通监控中心，请前往监控中心一键开通。详情请参见开通监控中心。
部分指标模板依赖CCE节点故障检测插件（NPD）进行上报，指标详情请参见表1。如需要使用相关的告警规则，请确保节点故障检测插件（NPD）已安装且正常运行。

登录CCE控制台，单击集群名称进入集群。
在左侧导航栏选择“告警中心”，切换至“告警规则 > 自定义告警规则”页签，单击“创建告警规则”。

设置告警规则，在创建告警规则面板填写配置。

规则类型：选择“指标告警”，设置基于Prometheus指标的阈值告警规则。
告警模板：不使用模板场景下，需填写手动规则详情。您也可以使用告警模板，快速定义告警规则（PromQL）或基于已有模板进行修改。

规则详情：

参数	说明	场景示例
规则名称	自定义告警规则的名称	CoreDNS内存使用率超过百分之八十
描述（可选）	添加告警规则描述。	检查CoreDNS容器内存使用率是否大于80%。
告警规则（PromQL）	输入普罗查询语句。关于如何编写普罗查询语句，请参见查询示例。	本例中设置CoreDNS当内存使用率的最大值大于80%产生告警，示例如下： (sum(container_memory_working_set_bytes{image!="", container!="POD",namespace="kube-system",container="coredns"}) BY (cluster_name, node,container, pod , namespace, cluster) / sum(container_spec_memory_limit_bytes{namespace="kube-system", container="coredns"} > 0) BY (cluster_name, node, container, pod , namespace, cluster) * 100) > 80
告警等级	根据重要性选择告警等级，分为“紧急”、“重要”、“次要”、“提示”四个等级。	紧急
持续时长	通过下拉菜单选择告警持续时长，默认为1分钟。	1分钟
告警内容	定义告警通知中的内容，可通过“${变量}”的形式捕获Prometheus中的变量	示例如下：集群：${cluster_name}/命名空间：${namespace}/Pod：${pod}/容器：${container} 内存使用率超过80%, 当前值${value}%。
联系组	选择一个已有的联系组。您也可以单击“新建联系组”进行创建，配置参数详情请参见绑定联系组。	CCEGroup

上述示例为kube-system空间下的CoreDNS设置一条名为“CoreDNS内存使用率超过百分之八十”的告警规则，告警等级为紧急。当内存使用率的最大值大于80%，且持续了1分钟时，给联系组CCEGroup内的所有告警联系人发送通知（通知方式为短信或邮件）。通知内容包含集群名称、命名空间、Pod名称、容器名称以及当前的内存使用率。

高级设置（可选）
- 告警标签：添加告警标识性属性，用于告警降噪分组条件，标签值可用在通知内容模板中以$event.metadate.标签名被引用。一共可以添加10个告警标签。
- 告警标注：添加告警非标识性属性，标注值可用在通知内容模板中以$event.annotations.标注名被引用。一共可以添加10个告警标注。

单击“确定”，然后可前往自定义告警规则列表中查看规则是否创建成功。

添加事件类告警

基于事件触发的告警规则依赖安装云原生日志采集插件，详情请参见云原生日志采集插件。
部分指标模板依赖CCE节点故障检测插件（NPD）进行上报，指标详情请参见表1。如需要使用相关的告警规则，请确保节点故障检测插件（NPD）已安装且正常运行。

登录CCE控制台，单击集群名称进入集群。
在左侧导航栏选择“告警中心”，切换至“告警规则 > 自定义告警规则”页签，单击“创建告警规则”。

设置告警规则，在创建告警规则面板填写配置。

规则类型：选择“事件告警”，设置基于事件触发的告警规则，常见事件来源为Kubernetes事件和云服务事件。

规则详情：

参数	说明	场景示例
规则名称	自定义告警规则的名称	ReplicaSet副本数变化
描述（可选）	添加告警规则描述。	ReplicaSet副本数在5分钟内变化次数超过3次
事件名称	输入事件的名称，该名称需要与实际产生的Kubernetes事件或云服务事件相匹配。具体事件名称可请参见CCE事件列表。	ScalingReplicaSet
触发方式	立即触发：只要事件出现即发生告警。累计触发：在指定的监控周期内，累计次数满足数值要求，才会发生告警。	选择“累计触发”，并设置监控周期为“5分钟”，累计次数为“> 3”。
告警等级	根据重要性选择告警等级，分为“紧急”、“重要”、“次要”、“提示”四个等级。	次要
联系组	选择一个已有的联系组。您也可以单击“新建联系组”进行创建，配置参数详情请参见绑定联系组。	CCEGroup