通过AOM配置自定义告警

CCE对接AOM并上报告警和事件，通过在AOM中设置告警规则，您可以及时了解集群中各种资源是否存在异常。

告警配置流程

在SMN创建主题。
创建告警通知规则。
添加告警规则。
1. 事件类告警：根据集群上报到AOM的事件配置告警。推荐配置的事件和配置方法请参见添加事件类告警。
2. 指标类告警：实时监控环境中主机、组件等资源使用情况，根据监控指标阈值告警。推荐配置阈值指标和配置方法请参见添加指标类告警。

在SMN创建主题

SMN（Simple Message Notification，消息通知服务）是向订阅者主动推送消息的服务，订阅者可以是电子邮件、短信、HTTP和HTTPS等。

主题是消息发布或客户端订阅通知的特定事件类型。它作为发送消息和订阅通知的信道，为发布者和订阅者提供一个可以相互交流的通道。

您需要创建一个主题，并订阅。具体方法请参见创建主题和订阅主题。

订阅主题后，请前往您的订阅终端（邮件或短信）手动确认添加订阅，消息通知才可生效。

创建告警通知规则

AOM提供告警通知规则定制功能，您可以通过创建告警通知规则关联SMN主题与消息模板，通过创建消息模板，自定义通知消息配置。

具体方法请参见创建告警通知规则。创建时选择在SMN创建主题创建并订阅的主题。

添加事件类告警

以添加“节点状态异常告警”为例，展示添加事件类告警的步骤，您可以参考表1添加其他告警。

表1 推荐配置的事件类告警
事件名称	来源	事件说明	处理建议
节点状态异常	CCE	节点异常立即触发告警	登录集群查看告警节点状态，确认异常后，优先将此节点设置为不可调度，并将业务pod调度到其他节点
节点重启	CCE	节点重启立即触发告警	登录集群查看告警节点状态，并确保节点正常启动可用，关注重启原因
节点kubelet故障	CCE	节点异常立即触发告警	登录集群查看告警节点状态，确认异常后，优先将此节点设置为不可调度，并将业务pod调度到其他节点；重启kubelet
节点docker故障	CCE	节点异常立即触发告警	登录集群查看告警节点状态，确认异常后，优先将此节点设置为不可调度，并将业务pod调度到其他节点；重启docker
节点kube-proxy故障	CCE	节点异常立即触发告警	登录集群查看告警节点状态，确认异常后，优先将此节点设置为不可调度，并将业务pod调度到其他节点
节点操作系统内核故障	CCE	节点异常立即触发告警	登录集群查看告警节点状态，确认异常后，优先将此节点设置为不可调度，并将业务pod调度到其他节点
节点的连接跟踪表已满	CCE	节点异常立即触发告警	登录集群查看告警节点状态，确认异常后，优先将此节点设置为不可调度，并将业务pod调度到其他节点
节点池资源售罄	CCE	节点池资源售罄立即告警	设置自动节点池切换或更换节点池规格
节点创建失败	CCE	创建节点失败立即触发	查看创建节点失败原因，尝试重新创建节点
扩容节点超时	CCE	扩容节点超时立即触发	查看扩容节点失超时原因，尝试重新扩容节点
缩容节点失败	CCE	缩容节点超时立即触发	查看缩容节点失超时原因，尝试重新缩容节点
拉取镜像重试失败	CCE	拉取镜像重试失败	登录集群查看拉取镜像失败原因，重新部署业务负载

登录AOM控制台。
在左侧导航栏选择“告警中心 > 告警规则”，单击“创建告警规则”。
根据页面提示填写基本信息后，设置告警规则。关键参数如下：

详细参数说明请参见创建事件类告警规则。
- 规则类型：选择“事件告警规则”。
- 事件类型：选择“系统事件”。
- 事件来源：选择“CCE”。
- 监控对象：监控对象可以通过多个维度（通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称）进行筛选，您可以根据需要选择。
  本示例中根据“事件名称”进行筛选，选择“节点状态异常”事件，触发方式选择“立即触发”。
- 告警方式：选择“直接告警”。
- 通知规则：选择创建告警通知规则步骤中创建的行动规则。
其余参数可按需求配置。

本示例中的设置的告警为：

当集群中存在节点状态异常时，CCE会上报“节点状态异常”的事件到AOM，AOM根据设置的告警规则，立即触发告警通知，并根据行动规则，通过SMN通知您。

图1 创建事件类告警
单击“立即创建”。

创建后在规则列表中可以看到对应的告警规则，表示创建成功。

添加指标类告警

以使用PromQL语句配置告警规则为例，展示添加指标类告警的步骤。

登录AOM控制台。
在左侧导航栏选择“告警中心 > 告警规则”，单击“创建告警规则”。
设置告警规则，关键参数如下。

详细参数说明请参见创建指标告警规则。
- 规则类型：选择“指标告警规则”。
- 配置方式：选择“PromQL”。采用原生PromQL语句配置告警规则，CCE提供了告警规则模板，可供您选择。
- Prometheus实例：选择集群中“云原生监控插件”上报指标的AOM实例。
- 默认规则：
  - 自定义：输入自定义PromQL语句配置告警规则，例如：
```
kube_persistentvolume_status_phase{phase=~"Failed|Pending",cluster="${cluster_id}"} > 0
```
    其中${cluster_id}为集群名称，表示当集群中有PV处于Failed或Pending状态时产生告警。
  - CCEFromProm：选择CCE提供的告警模板。
    图2 指标类告警
- 告警方式：选择“直接告警”。
- 通知规则：选择创建告警通知规则步骤中创建的行动规则。
其余参数可按需求配置。
单击“立即创建”。

创建后在规则列表中可以看到对应的告警规则，表示创建成功。