通过AOM配置自定义告警
CCE对接AOM并上报告警和事件,通过在AOM中设置告警规则,您可以及时了解集群中各种资源是否存在异常。
告警配置流程
在SMN创建主题
SMN(Simple Message Notification,消息通知服务)是向订阅者主动推送消息的服务,订阅者可以是电子邮件、短信、HTTP和HTTPS等。
主题是消息发布或客户端订阅通知的特定事件类型。它作为发送消息和订阅通知的信道,为发布者和订阅者提供一个可以相互交流的通道。
您需要创建一个主题,并订阅。具体方法请参见创建主题和订阅主题。
订阅主题后,请前往您的订阅终端(邮件或短信)手动确认添加订阅,消息通知才可生效。
添加事件类告警
以添加“节点状态异常告警”为例,展示添加事件类告警的步骤,您可以参考表1添加其他告警。
事件名称 |
来源 |
事件说明 |
处理建议 |
---|---|---|---|
节点状态异常 |
CCE |
节点异常立即触发告警 |
登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 |
节点重启 |
CCE |
节点重启立即触发告警 |
登录集群查看告警节点状态,并确保节点正常启动可用,关注重启原因 |
节点kubelet故障 |
CCE |
节点异常立即触发告警 |
登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点;重启kubelet |
节点docker故障 |
CCE |
节点异常立即触发告警 |
登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点;重启docker |
节点kube-proxy故障 |
CCE |
节点异常立即触发告警 |
登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 |
节点操作系统内核故障 |
CCE |
节点异常立即触发告警 |
登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 |
节点的连接跟踪表已满 |
CCE |
节点异常立即触发告警 |
登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 |
节点池资源售罄 |
CCE |
节点池资源售罄立即告警 |
设置自动节点池切换或更换节点池规格 |
节点创建失败 |
CCE |
创建节点失败立即触发 |
查看创建节点失败原因,尝试重新创建节点 |
扩容节点超时 |
CCE |
扩容节点超时立即触发 |
查看扩容节点失超时原因,尝试重新扩容节点 |
缩容节点失败 |
CCE |
缩容节点超时立即触发 |
查看缩容节点失超时原因,尝试重新缩容节点 |
拉取镜像重试失败 |
CCE |
拉取镜像重试失败 |
登录集群查看拉取镜像失败原因,重新部署业务负载 |
- 登录AOM 2.0控制台。
- 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建告警规则”。
- 根据页面提示填写基本信息后,设置告警规则。关键参数如下:
详细参数说明请参见创建事件类告警规则。
- 规则类型:选择“事件告警规则”。
- 事件类型:选择“系统事件”。
- 事件来源:选择“CCE”。
- 监控对象:监控对象可以通过多个维度(通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称)进行筛选,您可以根据需要选择。
- 告警方式:选择“直接告警”。
- 行动规则:选择创建行动规则步骤中创建的行动规则。
其余参数可按需求配置。
本示例中的设置的告警为:
当集群中存在节点状态异常时,CCE会上报“节点状态异常”的事件到AOM,AOM根据设置的告警规则,立即触发告警通知,并根据行动规则,通过SMN通知您。
图1 创建事件类告警
- 单击“立即创建”。
创建后在规则列表中可以看到对应的告警规则,表示创建成功。
添加指标类告警
以使用PromQL语句配置告警规则为例,展示添加指标类告警的步骤。
- 登录AOM 2.0控制台。
- 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建告警规则”。
- 设置告警规则,关键参数如下。
详细参数说明请参见创建指标告警规则。
- 规则类型:选择“指标告警规则”。
- 配置方式:选择“PromQL”。采用原生PromQL语句配置告警规则,CCE提供了告警规则模板,可供您选择。
- Prometheus实例:选择集群中“云原生监控插件”上报指标的AOM实例。
- 默认规则:
- 自定义:输入自定义PromQL语句配置告警规则,例如:
kube_persistentvolume_status_phase{phase=~"Failed|Pending",cluster="${cluster_id}"} > 0
其中${cluster_id}为集群名称,表示当集群中有PV处于Failed或Pending状态时产生告警。
- CCEFromProm:选择CCE提供的告警模板。
图2 指标类告警
- 自定义:输入自定义PromQL语句配置告警规则,例如:
- 告警方式:选择“直接告警”。
- 行动规则:选择创建行动规则步骤中创建的行动规则。
其余参数可按需求配置。
- 单击“立即创建”。
创建后在规则列表中可以看到对应的告警规则,表示创建成功。