更新时间:2026-06-05 GMT+08:00
分享

使用OpenClaw进行CCE集群定期巡检

应用场景

生产环境中的CCE集群需要持续关注节点健康、Pod状态、核心插件、资源利用率、Kubernetes事件、AOM告警和业务入口状态。通过OpenClaw Agent对接集群巡检能力,可以用自然语言配置周期性巡检任务,让Agent自动完成集群健康检查、告警聚合、异常分析、风险分级、报告生成和通知推送。

本实践推荐采用“先快检、异常再深检”的方式运行巡检:

  • 集群状态正常时,Agent输出简洁的健康摘要,减少无效噪音。
  • 快检发现异常时,Agent自动扩展到Pod、Node、Event、AOM、ELB和资源利用率等维度。
  • Agent会查询近24小时AOM告警,并按告警类型、严重程度、当前状态和重复频次进行聚合,区分活跃告警、已恢复告警、突发告警和常态重复告警。
  • 深度巡检会补充Pod历史指标TopN,以及节点CPU、内存、磁盘TopN,帮助判断异常是否与资源水位相关。
  • AI会基于巡检证据进行风险分级,并在报告中呈现影响范围、可能原因和下一步建议;分级结果用于摘要和建议,不要求工具返回固定字段。
  • 巡检过程只执行只读查询和报告生成,不会自动执行扩容、删除、重启、drain等变更动作。

通过OpenClaw Agent可以实现:

  • 每天或每周定时执行CCE集群巡检。
  • 自动生成Markdown和HTML巡检报告。
  • 将巡检摘要和报告链接通过邮件推送给运维团队。
  • 归档历史巡检报告,便于趋势对比和复盘。
  • 在发现严重风险时,继续转交相关诊断能力做深入分析。

约束与限制

  • 巡检过程只执行只读查询和报告生成,不会自动执行修复动作。
  • 巡检任务执行期间会调用CCE、AOM、LTS、ELB等云服务的API,会产生少量API调用费用或日志查询成本。
  • 报告存储在OBS中,会产生相应的存储费用。
  • 邮件发送频率受SMTP服务或华为云邮件推送服务配额限制,建议合理设置巡检频率。
  • 严禁将AK/SK、Token、证书及真实项目ID写入文档、代码或对话输出。

注意事项

  • 深度巡检会采集更多指标和上下文,包括近24小时AOM告警、Pod历史指标TopN、节点CPU/内存/磁盘TopN,执行时间可能明显长于快检。
  • Pod资源TopN基于历史指标时间窗查询,结果可能包含查询时间窗内出现过但当前已不存在的Pod;可结合当前Pod列表判断对象是否仍存在。
  • 风险分级由AI根据工具返回的事实证据生成,建议先查看关联事件、日志和指标,再决定是否进入恢复流程。

前提条件

  • 已创建CCE集群且状态为“运行中”。
  • 已开通OpenClaw服务并完成Agent初始化。
  • Agent已完成华为云云原生能力接入。
  • 目标CCE集群已安装云原生监控插件。
  • 目标CCE集群已按照最佳实践配置AOM告警规则,详情请参见使用AI CLI配置、查询和治理CCE AOM告警
  • 已配置华为云访问凭证,建议通过OpenClaw密钥管理或环境变量注入,不在文档、脚本或对话中暴露AK/SK。
  • 巡检账号已具备CCE、AOM、LTS、ELB等相关资源的只读查询权限。
  • 如需邮件通知,已准备SMTP服务或华为云邮件推送服务。
  • 如需报告归档,已准备OBS桶或其他报告存储位置。

推荐输入

可以直接在OpenClaw对话中描述目标集群、巡检周期、巡检范围和通知方式。

使用场景及推荐输入

使用场景

推荐输入

创建每日巡检

帮我为北京四 test-ai-diagnoses 集群创建每日巡检任务,每天上午9点执行,先做快检,发现异常再做深度巡检,并把报告发送给运维组。

立即执行巡检

立即巡检北京四 test-ai-diagnoses 集群,先做快检,发现异常再做深度诊断。

查看最近报告

查看 test-ai-diagnoses 集群最近一次巡检报告,并按严重程度列出风险。

分析一周趋势

汇总 test-ai-diagnoses 集群最近7天巡检结果,告诉我风险是否变多。

深入分析异常

继续分析巡检报告中的高风险节点问题,关联事件、指标和相关Pod。

巡检结果建议重点查看以下内容

输出内容

关注点

巡检结论

集群整体是否健康,是否存在高风险异常。

异常分组

异常集中在Pod、Node、Event、AOM、ELB还是Resource。

影响范围

影响哪些命名空间、节点、工作负载或业务入口。

风险趋势

与前一天或最近7天相比,问题是否新增、扩大或恢复。

建议动作

继续观察、进入专项诊断、扩容评估、规则优化或转交恢复流程。

操作流程

步骤一:创建CCE集群周期巡检任务

让Agent按指定周期创建CCE集群巡检任务。Agent会根据输入识别区域、集群名称、巡检时间、报告格式和通知方式,并生成巡检计划。

  1. 在OpenClaw对话中输入以下内容。
    帮我为北京四 test-ai-diagnoses 集群创建每日巡检任务,每天上午9点执行,先做快检,发现异常再做深度巡检,生成Markdown/HTML巡检报告,并发送给ops-team@company.com。
  2. Agent会自动生成巡检计划,确认以下内容。

    配置项

    示例

    说明

    区域

    cn-north-4

    目标CCE集群所在区域

    集群名称

    test-ai-diagnoses

    需要巡检的CCE集群

    执行周期

    每天09:00

    建议选择业务低峰或值班交接前

    巡检策略

    先快检,异常后深检

    默认减少不必要的重型检查

    报告格式

    Markdown、HTML

    便于邮件阅读和历史归档

    通知对象

    ops-team@company.com

    接收巡检摘要和报告链接

    存储位置

    obs://your-bucket/reports/

    保存历史巡检报告

  3. 任务生成后,Agent会按计划执行巡检。建议立即触发一次巡检,用于验证配置是否正确。
    立即执行一次test-ai-diagnoses集群巡检,并发送测试报告。

步骤二:查看巡检报告并识别风险

  1. 巡检完成后,Agent会生成巡检摘要和完整报告。可以直接查看最近一次巡检结果。
    查看 test-ai-diagnoses 集群最近一次巡检报告,并按严重程度列出风险。
  2. Agent会先返回巡检摘要

    巡检项

    示例结果

    关注点

    巡检结论

    Warning

    集群是否存在需要处理的风险

    检查项数量

    12项,通过9项,警告2项,失败1项

    是否有新增异常

    节点健康

    3/3节点正常

    是否存在NotReady、资源压力或节点事件

    Pod状态

    2个Pod异常

    是否存在CrashLoopBackOff、Pending、Evicted

    AOM告警

    近24小时140条,4条未恢复

    是否存在持续告警、突发告警或常态重复告警

    核心插件

    正常

    CoreDNS、网络、存储等插件是否健康

    Pod资源TopN

    近24小时CPU/内存TopN

    是否存在历史高水位Pod或已消失Pod的指标痕迹

    节点资源TopN

    节点CPU/内存/磁盘TopN

    是否存在节点CPU、内存、磁盘容量风险

  3. 当巡检发现异常时,Agent会基于工具返回的事实证据进行严重程度判断,并输出问题清单。

    严重程度

    分类

    资源

    问题

    证据

    建议

    Pod健康

    default/test

    可用副本为0

    Deployment期望2个副本,当前Ready为0;相关Pod处于Pending

    查看Pod事件和镜像拉取状态,优先恢复工作负载可用性

    Node资源

    192.168.32.2

    节点CPU持续高位

    节点CPU当前100%,近24小时窗口内持续高位

    定位该节点上的高CPU进程或Pod,必要时评估迁移或扩容

    AOM告警

    default/test-*

    镜像拉取失败重复告警

    近24小时出现FailedPullImage、BackOffPullImage,仍有未恢复告警

    修正镜像地址或版本,修复后重新触发Deployment滚动更新

  4. 对于严重或反复出现的问题,可以让Agent继续分析
    继续分析 default/test 副本不可用问题,关联近24小时AOM告警、Kubernetes事件、Pod状态和相关指标。

    Agent会在巡检报告基础上继续汇聚上下文,并输出根因线索、影响范围和下一步处理建议。例如,针对严重告警或高风险资源异常,可以让Agent进一步分析对应时间窗内的相关Pod、节点指标、事件和日志,判断异常是否具备同一根因。

步骤三:查看历史趋势和报告归档

周期巡检的价值不只是发现当天异常,也包括观察风险是否持续、扩大或恢复。可以让Agent汇总一段时间内的巡检结果:

汇总 test-ai-diagnoses 集群最近7天巡检结果,按日期列出高、中、低风险变化和新增问题。
Agent可以输出趋势摘要。

日期

执行状态

总检查项

高风险

中风险

低风险

新增问题

备注

2026-05-31

成功

12

1

2

1

1

Pod重启问题新增

2026-05-30

成功

12

1

1

1

0

节点内存压力持续

2026-05-29

成功

12

2

2

2

2

出现核心插件异常

2026-05-28

成功

12

0

0

0

0

集群健康

也可以查看报告归档位置。
列出 test-ai-diagnoses 集群最近7天巡检报告的Markdown和HTML链接。
报告预期将保留以下内容。

报告内容

说明

巡检摘要

集群整体状态、检查项数量、高/中/低风险数量

异常清单

按Pod、Node、Event、AOM、ELB、Resource分类展示

风险趋势

与前一次巡检或近7天趋势对比

根因线索

对严重异常给出相关日志、事件、指标入口

建议动作

继续观察、进入专项诊断、容量评估或转交恢复流程

预期结果

完成本实践后,OpenClaw Agent能够帮助完成以下闭环:

  1. 按指定周期自动执行CCE集群巡检。
  2. 默认先执行快检,发现异常后再进入深度诊断或并行巡检。
  3. 按Pod、Node、Event、AOM、ELB、Resource等维度汇总异常。
  4. 由AI基于巡检证据标记风险严重程度和影响范围。
  5. 自动生成Markdown和HTML巡检报告,并通过邮件推送给运维团队。
  6. 将历史巡检报告归档,支持按天查看和趋势对比。
  7. 对严重或持续风险,继续联动日志、事件、指标和相关诊断能力做根因分析。

常见问题

每次巡检都需要深度巡检吗?

不建议。 推荐默认先执行快检,只有发现异常时再进入深度诊断或并行巡检。这样可以减少不必要的API调用、日志查询和报告噪音,提高巡检效率。

巡检发现高风险问题后会自动修复吗?

不会。OpenClaw Agent在本实践中只做巡检和报告生成,不执行修复动作。确认需要恢复时,可以让Agent转交对应诊断或恢复能力,并在执行任何变更前进行确认。

为什么Pod资源TopN中会出现当前不可见的Pod?

Pod资源TopN用于分析历史时间窗内的资源使用情况。默认查询近24小时的历史指标,因此可能出现已经删除或重建过的Pod。可以让Agent继续查询当前Pod列表,并将历史指标对象与当前存量对象分开说明,以便更好地理解资源使用情况。

为什么收不到邮件?

建议检查邮件收件人、SMTP或邮件推送服务配置、发送记录、邮件服务配额和企业邮箱拦截策略。如果报告已生成但邮件未发送成功,可以先通过OpenClaw控制台或报告归档路径查看报告。

历史报告应该保留多久?

建议生产集群至少保留30天巡检报告。 如果需要进行月度稳定性复盘、SLA统计或容量趋势分析,可以保留90天或更长时间,并配置OBS生命周期策略控制存储成本。这样可以确保在需要时能够快速访问历史数据,同时有效管理存储成本。

相关文档

  • 云容器引擎CCE :查询CCE集群、节点、工作负载、插件和云原生观测相关产品说明。
  • 应用运维管理AOM查询AOM指标、告警、日志和应用观测相关说明。

相关文档