文档首页/ 云容器引擎 CCE/ Skill参考/ 华为云云原生SKILL最佳实践/ 使用AI CLI配置、查询和治理CCE AOM告警
更新时间:2026-06-05 GMT+08:00
分享

使用AI CLI配置、查询和治理CCE AOM告警

应用场景

CCE集群上线后,运维团队通常需要尽快完成告警规则初始化,并在日常排障中持续关注当前活跃告警、历史告警、恢复记录和通知规则。通过AI CLI Agent对接alarm-correlation-engine Skill,您可以用自然语言完成CCE AOM告警规则配置、告警查询、告警聚合分析和严重告警根因追查。

相比只查看单条告警列表,本实践推荐客户按时间窗分析集群告警。AI CLI会自动归并同类告警,标记严重程度,区分常态告警、突发告警和持续未恢复告警,帮助客户快速判断“哪些告警最紧急、影响哪些资源、下一步应该查什么”。

通过AI CLI可以实现:

  • 一键为指定CCE集群创建AOM告警中心推荐规则。
  • 未指定通知规则时,自动创建集群级默认通知规则。
  • 创建前预览规则数量、规则类型、通知方式和缺失参数,客户确认后再执行。
  • 创建完成后自动查询告警规则列表,确认50个规则已成功创建。
  • 按集群和时间窗查询当前活跃告警、历史告警和恢复记录。
  • 对告警进行去重、分组、严重程度标记、突发/持续/常态识别和根因线索分析。

本实践以北京四test-ai-diagnoses集群批量配置CCE AOM告警规则,并分析最近4小时告警态势为例,演示如何通过自然语言完成告警配置、告警查询和聚合分析。

约束与限制

  • 可不指定已有通知规则,未指定时AI CLI将自动调用集群级默认通知规则。
  • 自动创建通知规则时,必须提供可用的SMN主题名称或主题URN。
  • 指标告警依赖目标集群已绑定AOM CCE Prometheus实例。
  • 事件告警依赖CCE事件上报链路,建议同步确认日志采集与节点故障检测插件状态正常。
  • 创建告警规则须经客户明确确认后方可执行。
  • 严重程度标记仅作排障辅助,不可替代生产变更审批与人工确认机制。
  • 分析告警时建议显式指定时间窗,如最近30分钟、最近4小时或特定起止时间段。
  • 严禁将AK/SK、Token、证书及真实项目ID写入文档、代码或对话输出。

前提条件

  • 已在AI CLI中注册alarm-correlation-engine Skill。
  • 已配置华为云访问凭证,建议通过环境变量或安全凭据文件注入,不在对话或文档中暴露AK/SK。
  • 目标CCE集群已绑定AOM CCE Prometheus实例。
  • 已准备可用的SMN主题,例如主题名test。如果已有AOM通知规则,也可以直接复用。
  • 执行账号已具备AOM告警规则查询、创建、通知规则查询和通知规则创建权限。
  • 创建告警规则已经过客户二次确认。

涉及的Skill

Skill名称

功能说明

alarm-correlation-engine

AOM告警查询、活跃告警查询、告警归并分析、告警规则创建和通知规则查询。

huawei-cloud-cce-cluster-management

查询CCE集群列表,确认集群名称、集群ID和集群状态。

observability-context-builder

在告警分析后继续汇聚指标、日志和Kubernetes事件上下文。

操作流程

步骤一:一键创建CCE集群告警规则

您可以按照CCE集群告警最佳实践,让AI CLI为目标集群智能配置默认AOM告警规则。您只需要说明区域、集群名称和通知主题,AI CLI会自动理解配置意图,补齐集群信息,生成创建计划,并在客户确认后完成规则创建和结果校验。

在OpenClaw对话中输入:

帮我给北京四集群test-ai-diagnoses批量创建CCE AOM告警规则,订阅主题使用test。 

AI CLI会先生成告警规则配置计划,帮助确认创建范围和通知方式。

智能处理项

说明

识别集群

根据区域和集群名称查询CCE集群,确认集群ID、集群状态和可配置性。

补齐通知配置

优先复用已有AOM通知规则;未指定通知规则时,基于SMN主题创建集群级默认通知规则。

生成规则计划

按CCE集群推荐实践生成50个默认告警规则,区分指标告警和事件告警。

预览影响范围

展示规则数量、规则类型、通知规则和缺失参数,不会直接创建。

等待客户确认

只有客户明确回复确认后,AI CLI才执行创建动作。

自动创建规则

批量创建默认告警规则;如发现同名规则已存在,则自动跳过避免重复创建。

自动验收结果

创建完成后立即查询告警规则列表,确认规则数量、类型和失败数量。

默认创建的50个规则包括。

类型

数量

示例

Prometheus指标告警

38

Pod状态异常、Pod频繁重启、节点CPU使用率、节点磁盘可用率、节点Kubelet异常。

CCE事件告警

12

Pod内存不足OOM、节点磁盘空间不足、节点状态异常、扩容节点超时、集群状态不可用。

AI CLI展示预览后,用户确认规则数量、通知方式和目标集群无误,再明确回复:

确认创建。 

执行完成后,AI CLI会返回创建结果,并自动查询确认规则已创建成功。客户重点查看以下验收项:

校验项

期望结果

test-ai-diagnoses相关规则总数

50

指标告警

38

事件告警

12

创建失败

0

如果部分规则已存在,AI CLI会跳过同名规则,避免重复创建。您也可以随时输入以下内容复查:

查询北京四test-ai-diagnoses集群的告警规则。

步骤二:按时间窗聚合分析告警并追查根

当需要了解集群当前是否存在风险时,建议指定时间窗,让AI CLI同时查询活跃告警、历史告警和恢复记录,并按严重程度聚合分析。

分析北京四test-ai-diagnoses集群最近4小时的AOM告警,按严重程度聚合,标记常态告警和突发告警,并告诉我最需要先处理的三个问题。 

您也可以指定精确时间段,用于分析变更窗口、故障窗口或值班交接窗口。

帮我分析北京四test-ai-diagnoses集群今天09:00到12:00之间的AOM告警,按严重程度聚合,输出突发告警首次出现时间和处置优先级。 

AI CLI会先返回本时间窗的告警态势摘要,重点查看以下信息:

输出项

示例

告警总量

最近4小时共发现42条告警,当前未恢复7条

严重程度分布

Critical: 1,High: 3,Medium: 9,Low: 29

告警类型分布

突发告警3组,持续未恢复告警2组,常态高频告警5组

首次出现时间

最早突发告警出现在09:17,集中爆发时间为09:20-09:35

主要影响对象

kube-system、default/nginx-demo、节点192.168.0.12

优先处理建议

当前风险集中在节点资源压力和业务Pod重启,建议优先分析节点磁盘和Pod最近变更

随后,AI CLI会将多条原始告警聚合成告警组,并按严重程度排序。客户可以按以下顺序处理:

优先级

严重程度

告警组

告警特征

首次出现时间

判断

处理建议

P0

Critical

集群状态不可用或核心组件异常

突发告警,当前未恢复

09:17

可能影响集群控制面或业务调度能力

立即进行根因分析,检查CCE事件、核心组件Pod和AOM指标

P1

High

节点磁盘空间不足,关联多个Pod驱逐事件

持续告警,当前未恢复

09:24

节点资源压力可能造成业务副本不稳定

关联节点上的Pod、驱逐事件和磁盘指标

P2

Medium

Pod频繁重启,集中在 default/nginx-demo

突发告警,部分已恢复

10:06

可能与近期发布、探针配置或资源限制有关

查询Pod日志、事件和Deployment版本历史

P3

Low

短时CPU阈值告警

常态告警,频繁自动恢复

过去7天多次出现

暂无持续影响,可能是短时流量波动

观察趋势,必要时调整阈值或HPA策略

对于Critical、High或用户关注的告警组,可以继续让AI CLI在同一时间窗内分析相关根因:

继续分析P1节点磁盘空间不足告警,时间窗保持最近4小时,帮我关联这个节点上的Pod、最近事件、相关指标和可能根因。 

AI CLI会围绕该告警组继续查询上下文,并给出根因线索:

根因分析项

客户可获得的信息

相关资源

告警节点、受影响Pod、命名空间、工作负载和Service

相关事件

驱逐、调度失败、探针失败、镜像拉取失败、节点异常等事件

相关指标

CPU、内存、磁盘、网络等资源趋势,以及告警触发前后的变化

时间线

告警首次出现时间、集中爆发时间、恢复时间和相关事件发生时间

初步根因

例如节点磁盘压力、工作负载发布异常、核心组件异常或容量不足

下一步建议

继续排障、清理资源、扩容、调整阈值、回滚发布或保持观察

用户也可以要求AI CLI只输出严重且未恢复的告警组:

只看最近4小时仍未恢复的High和Critical告警,按影响资源分组,并给出每组首次出现时间和根因分析建议。 

如果告警与业务不可用相关,可以继续要求AI CLI输出完整根因分析和恢复建议:

基于这些严重告警继续做根因分析,时间窗保持09:00到12:00,并给出恢复建议。 

如果需要查看原始明细,可以继续输入:

展开最近4小时告警明细,显示告警名称、状态、级别、资源、首次触发时间和描述。

预期结果

完成本实践后,AI CLI能够帮助您完成以下闭环:

  • 按CCE集群告警最佳实践,一键为目标集群创建50个AOM告警规则。
  • 自动识别集群、准备通知规则、预览创建计划,并在用户确认后执行创建。
  • 创建完成后自动查询告警规则列表,确认指标告警38个、事件告警12个、创建失败0个。
  • 按指定时间窗查询当前活跃告警、历史告警和恢复记录。
  • 对告警进行自动聚合、去重和严重程度标记,区分常态告警、突发告警和持续未恢复告警。
  • 输出突发告警首次出现时间、集中爆发时间、影响资源和按优先级排序的处置队列。
  • 针对Critical和High严重告警,在同一时间窗内关联事件、日志、指标和资源状态,输出可能根因和下一步诊断路径。

常见问题

提示找不到Prometheus实例

  • 问题现象

    错误示例如下所示。

    {
      "success": false,
      "error": "未找到目标集群对应的Prometheus实例"
    }
  • 处理建议
    1. 查询AOM Prometheus实例,确认目标集群是否绑定CCE类型实例。
    2. 查询CCE插件,确认云原生监控相关组件是否已安装。
    3. 若控制台刚开启监控,等待实例绑定信息同步后重试。

为什么查询到的通知规则数量和控制台不一致

建议通过AI CLI重新查询当前区域的AOM通知规则;若仍不一致,请核实当前凭证、所属项目及区域是否与控制台环境完全匹配。

为什么自动创建通知规则失效

请优先确认SMN主题是否存在,以及当前账号是否具备AOM通知规则和SMN主题访问权限,确认无误后重新发起创建即可。

告警数量很多但不知道先处理什么

建议通过AI CLI按时间窗重新聚合分析,并要求输出严重程度和处置优先级,例如:

把最近4小时test-ai-diagnoses集群的AOM告警按资源和严重程度聚合,输出最需要优先处理的5个告警组。

如果聚合后仍存在大量High或Critical告警,应继续缩小范围,优先分析未恢复、影响核心命名空间、关联多个资源或集中爆发的告警组。

后续建议

  • 规则创建完成后,建议立即查询目标集群的告警规则,确认规则数量、通知方式及启用状态符合预期。
  • 新集群上线初期建议每日核查活跃告警与高频历史告警,观察是否存在阈值过严、重复通知或长期未恢复的告警。
  • 值班排障时建议固定使用时间窗进行分析。例如,“最近30分钟”“最近4小时”“变更后到现在”,避免无关历史告警干扰。
  • 针对Critical和High告警组,建议继续关联日志、事件、指标及工作负载版本,形成根因分析链路。
  • 对于确认无业务影响的高频告警,建议先分析触发对象与时段,再评估阈值或通知范围的优化方案。
  • 生产集群建议定期导出告警规则清单,将其作为变更审计与故障复盘的重要材料。
  • 告警触发后,建议先查看告警聚合和严重程度标记结果,再继续查询相关日志、事件和指标,避免只根据单条告警做恢复动作。

相关文档

相关文档