文档首页/ 云容器引擎 CCE/ Skill参考/ 使用华为云云原生Skill

更新时间：2026-07-17 GMT+08:00

使用华为云云原生Skill

本章节面向使用CCE（云容器引擎）及相关云服务的开发者、运维工程师和架构师，介绍华为云云原生Skill的能力定位、使用方式和详细参考。

Skill概述

什么是Skill

Skill是将专业知识、操作流程和最佳实践转化为可复用能力单元的开放能力。在AI Agent体系中，Skill用于扩展Agent的专业领域能力，使Agent能够按照预定义的流程和规则，自动执行特定领域的复杂任务。Skill的核心特点：

意图驱动：Agent通过读取Skill的description，自动理解何时应该触发该Skill，无需用户显式指定。
场景编排：单个Skill内部串联多个操作步骤，自动完成上下文收集、分析和结论输出。
可复用：同一个Skill可以在不同的Agent平台（Web、CLI、API）上运行，无需为每个平台单独适配。
可组合：多个Skill可以按工作流组合使用，Agent会根据任务需要自动选择和调用合适的Skill。
安全护栏：Skill内部定义风险约束，高危操作必须经过预览和用户确认。

华为云云原生Skill将华为云CCE、AOM、LTS、ELB、ECS、HSS等云服务的运维能力，按照故障诊断、可观测分析、巡检治理、自动恢复等场景封装为一系列Skill，使AI Agent具备专业的云原生运维能力。

适用场景

故障诊断：Pod CrashLoopBackOff、节点NotReady、Ingress 502、PVC Pending等。
可观测分析：汇聚AOM告警、LTS日志、K8s事件、Pod/Node指标形成诊断上下文。
巡检治理：每日集群健康检查、容量趋势预测、成本优化建议、可用性风险扫描。
自动恢复：扩缩容、cordon/drain节点、重启ECS、HSS漏洞修复等受控变更。
交付方案：容器迁移规划、资源盘点、依赖矩阵分析。
集群管理：CCE集群升级规划、工作负载管理、UCS集群纳管与策略治理。

安全约束与风险分级

核心安全约束
- 禁止在脚本、日志、报告中输出AK/SK。
- 所有删除、扩缩容、drain、reboot等动作必须先预览，再由用户明确确认。
- 临时kubeconfig和证书文件必须在使用后清理。
- 诊断类、巡检类、迁移规划类Skill只执行只读查询和报告生成。

风险分级机制

等级	风险级别	核心定义	典型操作示例	默认行为
R3	无风险	只读操作，不改变系统任何状态。	数据查询、状态获取、指标监控。	直接执行
R2	低风险	对业务连续性影响很小或无影响，不涉及成本变化。	增加Pod副本数、配置HPA规则。	默认禁止，可配置授权后自动执行
R1	中风险	对业务连续性影响较小，或涉及成本变化。	重启异常Pod、Pod资源配额调整、增加集群节点。	默认禁止，需用户人工审批后执行
R0	高风险	对业务连续性影响较大，可能导致服务中断。	删除集群。	默认禁止，需用户人工审批后执行

使用限制

当前Skill主要面向CCE集群及其关联云服务（AOM、LTS、ELB、ECS、HSS等）。
所有变更类Action默认预览模式，不自动执行。

使用说明

工作原理

Skill基于意图匹配机制工作：Agent读取Skill目录中“SKILL.md”文件头部的description，当用户输入的问题与description匹配时，Agent自动触发该Skill。Skill内部定义了完整的处理流程、可调用的工具清单和风险约束，Agent按照Skill的指引逐步执行任务。

例如，当用户问“Pod一直重启怎么办”时，Agent匹配到pod-failure-diagnoser 的description为：

---
name: pod-failure-diagnoser
description: Diagnose CCE Pod failures such as CrashLoopBackOff, ImagePullBackOff, OOMKilled, Pending, Evicted, restart storms, or workload unavailable.
---

Agent判断该问题与description匹配，于是自动触发pod-failure-diagnoser，执行诊断流程。

获取Skill

华为云云原生Skill通过开放仓库提供，获取地址为GitHub仓库。

每个Skill采用自包含目录结构，包含运行该能力所需的说明和配套文件。

skill-name/
├── SKILL.md       # Skill定义文件，唯一入口
├── references/    # 参考资料
├── scripts/       # 可执行脚本
├── templates/     # 模板文件
└── demo/          # 演示样例

安装Skill

方式一：使用npx安装

# 安装单个Skill
npx skills add huaweicloud/huaweicloud-skills --skill <skill-name>

# 安装全部Skill
npx skills add huaweicloud/huaweicloud-skills

方式二：从GitHub仓库手动安装

git clone https://github.com/pancake0001/huawei-cloudnative-skills.git

# 安装指定Skill
npx skills add <path>/huaweicloud-skills/skills/<skill-name>

不同Agent平台的加载路径和集成方式略有差异，详情请参见平台集成示例。

认证配置

使用华为云产品相关Skill前，需要根据目标云服务配置认证信息。

交互式配置

Access Key Id: <your AK>
Secret Access Key: <your SK>

使用KooCLI配置AccessKey认证
```
hcloud configure set --cli-access-key="<your AK>" --cli-secret-key="<your SK>" --cli-mode="AKSK"
```
- 仅在受信任的本地测试环境中使用明文AK/SK认证，避免凭证泄露。
- 云上环境应遵循最小权限原则，并参考身份认证与访问控制。
- 禁止将AK/SK写入脚本、日志、报告或代码仓库。

详细参考

概述

华为云云原生Skill围绕云原生资源管理和持续运维场景组织，覆盖资源生命周期、可观测与告警、故障诊断与恢复、巡检治理、解决方案交付以及多云多集群管理等能力域。

每个Skill均以独立目录提供，包含能力说明、适用场景和必要的参考资料。您可以根据业务需求选择单个Skill，也可以组合多个Skill完成跨服务、跨步骤的运维任务。以下内容按能力域列出可用Skill。

生命周期与资源管理

生命周期与资源管理包含CCE、CCI、SWR三类产品能力。产品名称仅用于分组，下表中每一行均代表一个独立的Skill。

CCE

Skill名称	目录路径	功能描述
huawei-cloud-cce-cluster-management	skills/huawei-cloud-cce-cluster-management	管理CCE集群、节点池、节点、插件、EIP和kubeconfig的全生命周期。
cce-cluster-upgrade-planner	skills/cce/cce-cluster-upgrade-planner	规划CCE Kubernetes版本升级，检查升级路径、插件兼容性、差异项和升级窗口。
cce-workload-manager	skills/cce/cce-workload-manager	管理CCE工作负载及Kubernetes资源，包括Deployment、StatefulSet、DaemonSet、Job、CronJob、HPA、Service、Ingress和配置资源。

CCI

Skill名称	目录路径	功能描述
huawei-cloud-cci-instance-management	skills/cci/huawei-cloud-cci-instance-management	管理CCI容器实例，包括Namespace、网络、Deployment、StatefulSet、Pod、EIPPool、日志和指标。

SWR

Skill名称	目录路径	功能描述
huawei-cloud-swr-image-management	skills/swr/huawei-cloud-swr-image-management	管理SWR命名空间、镜像仓库、标签、登录凭证和配额。
huawei-cloud-swr-image-governance	skills/swr/huawei-cloud-swr-image-governance	管理SWR权限、保留策略、共享策略、委托和不可变规则。
huawei-cloud-swr-image-automation	skills/swr/huawei-cloud-swr-image-automation	管理SWR镜像同步、触发器和自动部署流程。
huawei-cloud-swr-enterprise-instance	skills/swr/huawei-cloud-swr-enterprise-instance	管理SWR企业实例、实例内命名空间、仓库、制品、凭证、端点和域名。

可观测与智能告警

Skill名称	目录路径	功能描述
observability-context-builder	skills/observability-context-builder	汇聚AOM告警、指标、LTS日志、Pod日志和Kubernetes事件，形成诊断上下文。
alarm-correlation-engine	skills/alarm-correlation-engine	关联分析AOM active/history告警，完成去重归并、严重级别分组和告警规则核对。
log-analyzer	skills/log-analyzer	查询和分析Pod标准输出、CCE LogConfig应用日志和LTS日志。
kubernetes-event-analyzer	skills/kubernetes-event-analyzer	查询和分析Kubernetes Warning事件、重复模式及Pod、Node、Workload异常。
metric-analyzer	skills/metric-analyzer	查询和分析CCE Pod、Node及ECS、ELB、EIP、NAT指标，识别阈值异常。

故障诊断与自愈恢复

Skill名称	目录路径	功能描述
pod-failure-diagnoser	skills/pod-failure-diagnoser	诊断CrashLoopBackOff、ImagePullBackOff、OOMKilled、Pending、Evicted 和频繁重启等Pod故障。
workload-failure-diagnoser	skills/workload-failure-diagnoser	诊断Deployment、StatefulSet、DaemonSet发布失败、滚动升级卡住、副本不足和探针异常。
node-failure-diagnoser	skills/node-failure-diagnoser	诊断Node NotReady、资源压力、NPD、CNI、kubelet和容器运行时异常。
autoscaling-diagnoser	skills/autoscaling-diagnoser	诊断HPA、Cluster Autoscaler链路故障。
network-failure-diagnoser	skills/network-failure-diagnoser	诊断Service、DNS、Ingress、NetworkPolicy、ELB、EIP、NAT和VPC网络故障。
storage-failure-diagnoser	skills/storage-failure-diagnoser	诊断PVC、PV、EVS、SFS、OBS、挂载、容量和删除保护相关故障。
root-cause-analyzer	skills/root-cause-analyzer	汇总跨域证据，输出Top根因、影响范围、置信度和恢复交接。
change-impact-analyzer	skills/change-impact-analyzer	分析发布、配置、网络、安全策略和节点变更造成的故障影响。
dependency-impact-analyzer	skills/dependency-impact-analyzer	基于Service、Ingress、Pod和Node拓扑分析故障传播路径和上下游影响。
auto-remediation-runner	skills/auto-remediation-runner	生成并执行受控恢复动作，所有高风险变更默认预览并要求明确确认。

巡检、治理与持续运维

Skill名称	目录路径	功能描述
daily-cluster-inspector	skills/daily-cluster-inspector	执行周期性CCE健康检查、快速巡检和持续运维摘要。
availability-risk-scanner	skills/availability-risk-scanner	扫描高可用、AZ分布、单副本、PDB、探针、亲和性、网关和资源超配风险。
capacity-trend-forecaster	skills/capacity-trend-forecaster	分析周期性容量趋势，预测资源瓶颈，模拟HPA和节点弹性策略。
cost-optimization-advisor	skills/cost-optimization-advisor	分析空闲资源、过量Request、低利用率节点和弹性策略优化机会。
ops-report-generator	skills/ops-report-generator	汇总巡检、容量、可用性、成本和on-call上下文，生成周报、月报、SLA、容量和稳定性报告。

解决方案与交付

Skill名称	目录路径	功能描述
cce-cci-bursting-deployer	skills/cce-cci-bursting-deployer	配置、部署并验证CCE到CCI 2.0的弹性扩容能力，包括VPCEP、virtual-kubelet 和冒烟验证。
container-migration-planner	skills/container-migration-planner	盘点容器平台资源和依赖，输出迁移批次、风险和验证方案，不执行真实迁移。
pressure-test	skills/pressure-test	构建从k6客户端经ELB、nginx-ingress到业务Pod的压测链路，收集观测数据并输出性能报告。

多云、多集群管理

UCS相关Skill统一放在本分类，不再混入CCE生命周期管理。

Skill名称	目录路径	功能描述
ucs-cluster-onboarding-manager	skills/ucs/ucs-cluster-onboarding-manager	管理UCS集群纳管、生命周期、舰队分组、kubeconfig和资源配额。
ucs-policy-governor	skills/ucs/ucs-policy-governor	管理UCS策略实例、策略定义、启停操作、执行状态和舰队合规审计。

使用方式

Agent根据各Skill的SKILL.md中的description自动匹配能力。需要人工定位时，先按本文档找到目标Skill，再进入对应目录查看完整说明和引用资料。

平台集成示例

在OpenCode中使用

OpenCode是面向终端的AI编程助手，支持通过项目目录或用户目录加载Skill。

Skill类型
- 项目级Skill：将Skill目录放入项目根目录的skills/文件夹下。
```
my-project/
├── src/
├── skills/
│   ├── pod-failure-diagnoser/
│   │   ├── SKILL.md
│   │   ├── manifest.json
│   │   ├── skill-profile.yaml
│   │   └── references/
│   ├── node-failure-diagnoser/
│   └── ...
```
  OpenCode启动时会自动扫描项目目录下的skills/文件夹，加载所有Skill。您可以直接在对话中描述问题，Agent根据description自动匹配合适的Skill。
- 用户级Skill：将Skill目录放入用户配置目录。用户级Skill对所有项目生效，适合放置通用的运维Skill。
  - Windows：%USERPROFILE%\.opencode\skills\
  - Linux/macOS：~/.opencode/skills/

使用示例

# 进入项目目录
cd my-project

# 启动OpenCode，Skill已自动加载
opencode

# 在对话中描述问题
> 我的Pod一直在重启，帮我看看
# Agent自动触发pod-failure-diagnoser

在OpenClaw中使用

OpenClaw是一个开源、自托管的Gateway，用于将聊天应用和渠道接入AI Agent。用户可以在本地或自有服务器上运行Gateway，并通过Skill扩展Agent能力。

OpenClaw可以从以下目录加载Skill：

目录	说明
<workspace>/skills/	当前工作区Skill，适合项目级定制。
<workspace>/.agents/skills/	当前工作区内的Agent项目级Skill。
~/.agents/skills/	多个Agent可共享的Skill。
~/.openclaw/skills/	OpenClaw管理的Skill。
skills.load.extraDirs	通过配置追加的Skill目录。

OpenClaw还会加载安装时自带的Skill。将需要使用的Skill目录复制到相应的加载目录即可。例如：

mkdir -p ~/.agents/skills
cp -R ./skills/pod-failure-diagnoser ~/.agents/skills/
cp -R ./skills/node-failure-diagnoser ~/.agents/skills/

每个Skill目录应包含 SKILL.md。OpenClaw加载Skill后，Agent可以根据用户意图选择合适的Skill，并按其中定义的工作流执行任务。

关于OpenClaw的定位、Skill加载顺序和目录说明，参见OpenClaw文档和OpenClaw Skills。

在Hermes中使用

Hermes是面向企业级AI Agent的服务编排平台，支持通过声明式配置集成Skill。

常见问题

当描述问题时，可参考下表快速定位推荐Skill。

问题描述	推荐Skill
Pod一直重启、Pending、OOMKilled	pod-failure-diagnoser
发布失败、滚动升级卡住、副本不满足	workload-failure-diagnoser
节点NotReady、资源压力、节点漏洞	node-failure-diagnoser
HPA不扩Pod、CA不扩节点、自动弹性不生效	autoscaling-diagnoser
Ingress 502、Service不通、ELB链路异常	network-failure-diagnoser
PVC Pending、FailedMount、容量耗尽	storage-failure-diagnoser
CCE告警很多，需要合并分析	alarm-correlation-engine
查询Pod标准输出或LTS应用日志	log-analyzer
分析Kubernetes事件趋势	kubernetes-event-analyzer
查询CCE Pod/Node指标和资源使用排名	metric-analyzer
需要汇聚日志、事件、指标、告警	observability-context-builder
业务不可用，需要综合根因分析	root-cause-analyzer
发布、配置、网络、安全策略或节点变更后出现故障	change-impact-analyzer
某个服务故障会影响哪些入口和上下游	dependency-impact-analyzer
需要扩容、重启、drain、漏洞修复	auto-remediation-runner
做每日巡检或周期性健康检查	daily-cluster-inspector
做成本优化、Request过量分析	cost-optimization-advisor
做容量趋势预测、弹性模拟	capacity-trend-forecaster
做可用性风险扫描、PDB/探针检查	availability-risk-scanner
做周报、月报、SLA运维报告	ops-report-generator
做容器迁移方案和资源盘点	container-migration-planner
CCE到CCI弹性扩容配置	cce-cci-bursting-deployer
CCE集群版本升级规划	cce-cluster-upgrade-planner
CCE/UCS工作负载管理	cce-workload-manager
UCS集群纳管和舰队管理	ucs-cluster-onboarding-manager
UCS策略治理和合规审计	ucs-policy-governor
SWR镜像生命周期管理	huawei-cloud-swr-image-management
SWR镜像治理	huawei-cloud-swr-image-governance
SWR镜像自动化	huawei-cloud-swr-image-automation
压力测试方案和执行	pressure-test

文档	说明	路径
CCE产品资料	云容器引擎CCE官方文档	华为云CCE文档
Skill开放仓库	华为云云原生Skill代码仓库	huaweicloud/huaweicloud-skills

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问