通过CCE配置自定义告警
当默认的告警规则无法满足您的述求时,可以创建自定义告警规则。通过在CCE中创建告警规则,您可以及时了解集群中各种资源是否存在异常。
添加指标类告警示例
- 登录CCE控制台,单击集群名称进入一个已有的集群。
- 在左侧导航栏选择“告警中心”,切换至“告警规则 > 自定义告警规则”页签,单击“创建告警规则”。
- 设置告警规则,在创建告警规则面板填写配置。
- 规则类型:选择“指标告警”,设置基于Prometheus指标的阈值告警规则。
- 告警模板:不使用模板场景下,需填写手动规则详情。您也可以使用告警模板,快速定义告警规则(PromQL)或基于已有模板进行修改。
- 规则详情:
参数
说明
场景示例
规则名称
自定义告警规则的名称
CoreDNS内存使用率超过百分之八十
描述(可选)
添加告警规则描述。
检查CoreDNS容器内存使用率是否大于80%。
告警规则(PromQL)
输入普罗查询语句。关于如何编写普罗查询语句,请参见查询示例。
本例中设置CoreDNS当内存使用率的最大值大于80%产生告警,示例如下:(sum(container_memory_working_set_bytes{image!="", container!="POD",namespace="kube-system",container="coredns"}) BY (cluster_name, node,container, pod , namespace, cluster) / sum(container_spec_memory_limit_bytes{namespace="kube-system", container="coredns"} > 0) BY (cluster_name, node, container, pod , namespace, cluster) * 100) > 80
告警等级
根据重要性选择告警等级,分为“紧急”、“重要”、“次要”、“提示”四个等级。
紧急
持续时长
通过下拉菜单选择告警持续时长,默认为1分钟。
1分钟
告警内容
定义告警通知中的内容,可通过“${变量}”的形式捕获Prometheus中的变量
示例如下:
集群:${cluster_name}/命名空间:${namespace}/Pod:${pod}/容器:${container} 内存使用率超过80%, 当前值${value}%。
联系组
选择一个已有的联系组。您也可以单击“新建联系组”进行创建,配置参数详情请参见配置告警通知人。
CCEGroup
上述示例为kube-system空间下的CoreDNS设置一条名为“CoreDNS内存使用率超过百分之八十”的告警规则,告警等级为紧急。当内存使用率的最大值大于80%,且持续了1分钟时,给联系组CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。 通知内容包含集群名称、命名空间、Pod名称、容器名称以及当前的内存使用率。
- 高级设置(可选)
- 告警标签:添加告警标识性属性,用于告警降噪分组条件,标签值可用在通知内容模板中以$event.metadate.标签名被引用。一共可以添加10个告警标签。
- 告警标注:添加告警非标识性属性,标注值可用在通知内容模板中以$event.annotations.标注名被引用。一共可以添加10个告警标注。
- 单击“确定”,然后可前往自定义告警规则列表中查看规则是否创建成功。
添加事件类告警
- 基于事件触发的告警规则依赖开通日志中心并开启Kubernetes事件采集,前往日志中心一键开通。详情请参见通过云原生日志采集插件采集容器日志。
- 部分指标模板依赖CCE节点故障检测插件(NPD)进行上报,指标详情请参见表1。如需要使用相关的告警规则,请确保节点故障检测插件(NPD)已安装且正常运行。
- 登录CCE控制台,单击集群名称进入一个已有的集群。
- 在左侧导航栏选择“告警中心”,切换至“告警规则 > 自定义告警规则”页签,单击“创建告警规则”。
- 设置告警规则,在创建告警规则面板填写配置。
- 规则类型:选择“事件告警”,设置基于事件触发的告警规则,常见事件来源为Kubernetes事件和云服务事件。
- 规则详情:
参数
说明
场景示例
规则名称
自定义告警规则的名称
ReplicaSet副本数变化
描述(可选)
添加告警规则描述。
ReplicaSet副本数在5分钟内变化次数超过3次
事件名称
输入事件的名称,该名称需要与实际产生的Kubernetes事件或云服务事件相匹配。具体事件名称可请参见CCE事件列表。
ScalingReplicaSet
触发方式
- 立即触发:只要事件出现即发生告警。
- 累计触发:在指定的监控周期内,累计次数满足数值要求,才会发生告警。
选择“累计触发”,并设置监控周期为“5分钟”,累计次数为“> 3”。
告警等级
根据重要性选择告警等级,分为“紧急”、“重要”、“次要”、“提示”四个等级。
次要
联系组
选择一个已有的联系组。您也可以单击“新建联系组”进行创建,配置参数详情请参见配置告警通知人。
CCEGroup
上述示例为ScalingReplicaSet事件设置一条名为“ReplicaSet副本数变化”的告警,告警等级为次要。当5分钟内累计次数超过3次时,CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。
- 单击“确定”,然后可前往自定义告警规则列表中查看规则是否创建成功。