使用华为云云原生Skill
本章节面向使用CCE(云容器引擎)及相关云服务的开发者、运维工程师和架构师,介绍华为云云原生Skill的能力定位、使用方式和详细参考。
Skill概述
什么是Skill
Skill是将专业知识、操作流程和最佳实践转化为可复用能力单元的开放能力。在AI Agent体系中,Skill用于扩展Agent的专业领域能力,使Agent能够按照预定义的流程和规则,自动执行特定领域的复杂任务。Skill的核心特点:
- 意图驱动:Agent通过读取Skill的description,自动理解何时应该触发该Skill,无需用户显式指定。
- 场景编排:单个Skill内部串联多个操作步骤,自动完成上下文收集、分析和结论输出。
- 可复用:同一个Skill可以在不同的Agent平台(Web、CLI、API)上运行,无需为每个平台单独适配。
- 可组合:多个Skill可以按工作流组合使用,Agent会根据任务需要自动选择和调用合适的Skill。
- 安全护栏:Skill内部定义风险约束,高危操作必须经过预览和用户确认。
华为云云原生Skill将华为云CCE、AOM、LTS、ELB、ECS、HSS等云服务的运维能力,按照故障诊断、可观测分析、巡检治理、自动恢复等场景封装为一系列Skill,使AI Agent具备专业的云原生运维能力。
适用场景
- 故障诊断:Pod CrashLoopBackOff、节点NotReady、Ingress 502、PVC Pending等。
- 可观测分析:汇聚AOM告警、LTS日志、K8s事件、Pod/Node指标形成诊断上下文。
- 巡检治理:每日集群健康检查、容量趋势预测、成本优化建议、可用性风险扫描。
- 自动恢复:扩缩容、cordon/drain节点、重启ECS、HSS漏洞修复等受控变更。
- 交付方案:容器迁移规划、资源盘点、依赖矩阵分析。
- 集群管理:CCE集群升级规划、工作负载管理、UCS集群纳管与策略治理。
安全约束与风险分级
- 核心安全约束
- 禁止在脚本、日志、报告中输出AK/SK。
- 所有删除、扩缩容、drain、reboot等动作必须先预览,再由用户明确确认。
- 临时kubeconfig和证书文件必须在使用后清理。
- 诊断类、巡检类、迁移规划类Skill只执行只读查询和报告生成。
- 风险分级机制
风险级别
示例
默认行为
R0
list/get/query/analyze
直接执行
R1
生成报告、方案、看板
直接执行
R2
重启异常Pod、查询后建议
默认预览,可配置自动执行
R3
扩容、回滚、cordon、uncordon
必须confirm=true
R4
删除集群、drain、休眠生产集群
必须confirm=true + 强风险提示
R5
清空数据、不可逆跨域删除
默认禁止
使用限制
- 当前Skill主要面向CCE集群及其关联云服务(AOM、LTS、ELB、ECS、HSS等)。
- 所有变更类Action默认预览模式,不自动执行。
使用说明
工作原理
Skill基于意图匹配机制工作:Agent读取Skill目录中“SKILL.md”文件头部的description,当用户输入的问题与description匹配时,Agent自动触发该Skill。Skill内部定义了完整的处理流程、可调用的工具清单和风险约束,Agent按照Skill的指引逐步执行任务。
例如,当用户问“Pod一直重启怎么办”时,Agent匹配到pod-failure-diagnoser 的description为:
--- name: pod-failure-diagnoser description: Diagnose CCE Pod failures such as CrashLoopBackOff, ImagePullBackOff, OOMKilled, Pending, Evicted, restart storms, or workload unavailable. ---
Agent判断该问题与description匹配,于是自动触发pod-failure-diagnoser,执行诊断流程。
获取Skill
华为云云原生Skill通过开放仓库提供,仓库地址为GitHub仓库。
每个Skill采用自包含目录结构,包含运行该能力所需的说明和配套文件。
skill-name/ ├── SKILL.md # Skill定义文件,唯一入口 ├── references/ # 参考资料 ├── scripts/ # 可执行脚本 ├── templates/ # 模板文件 └── demo/ # 演示样例
安装Skill
- 方式一:使用npx安装
# 安装单个Skill npx skills add huaweicloud/huaweicloud-skills --skill <skill-name> # 安装全部Skill npx skills add huaweicloud/huaweicloud-skills
- 方式二:从GitHub仓库手动安装
git clone https://github.com/huaweicloud/huaweicloud-skills.git # 安装指定Skill npx skills add <path>/huaweicloud-skills/skills/<skill-name>
不同Agent平台的加载路径和集成方式略有差异,详情请参见平台集成示例。
认证配置
使用华为云产品相关Skill前,需要根据目标云服务配置认证信息。
- 交互式配置
Access Key Id: <your AK> Secret Access Key: <your SK>
- 使用KooCLI配置AccessKey认证
hcloud configure set --cli-access-key="<your AK>" --cli-secret-key="<your SK>" --cli-mode="AKSK"
- 仅在受信任的本地测试环境中使用明文AK/SK认证,避免凭证泄露。
- 云上环境应遵循最小权限原则,并参考身份认证与访问控制。
- 禁止将AK/SK写入脚本、日志、报告或代码仓库。
详细参考
概述
华为云云原生Skill围绕云原生资源管理和持续运维场景组织,覆盖资源生命周期、可观测与告警、故障诊断与恢复、巡检治理、解决方案交付以及多云多集群管理等能力域。
每个Skill均以独立目录提供,包含能力说明、适用场景和必要的参考资料。您可以根据业务需求选择单个Skill,也可以组合多个Skill完成跨服务、跨步骤的运维任务。以下内容按能力域列出可用Skill。
生命周期与资源管理
生命周期与资源管理包含CCE、CCI、SWR三类产品能力。产品名称仅用于分组,下表中每一行均代表一个独立的Skill。
- CCE
Skill名称
目录路径
功能描述
huawei-cloud-cce-cluster-management
skills/huawei-cloud-cce-cluster-management
管理CCE集群、节点池、节点、插件、EIP和kubeconfig的全生命周期。
cce-cluster-upgrade-planner
skills/cce/cce-cluster-upgrade-planner
规划CCE Kubernetes版本升级,检查升级路径、插件兼容性、差异项和升级窗口。
cce-workload-manager
skills/cce/cce-workload-manager
管理CCE工作负载及Kubernetes资源,包括Deployment、StatefulSet、DaemonSet、Job、CronJob、HPA、Service、Ingress和配置资源。
- CCI
Skill名称
目录路径
功能描述
huawei-cloud-cci-instance-management
skills/cci/huawei-cloud-cci-instance-management
管理CCI容器实例,包括Namespace、网络、Deployment、StatefulSet、Pod、EIPPool、日志和指标。
- SWR
Skill名称
目录路径
功能描述
huawei-cloud-swr-image-management
skills/swr/huawei-cloud-swr-image-management
管理SWR命名空间、镜像仓库、标签、登录凭证和配额。
huawei-cloud-swr-image-governance
skills/swr/huawei-cloud-swr-image-governance
管理SWR权限、保留策略、共享策略、委托和不可变规则。
huawei-cloud-swr-image-automation
skills/swr/huawei-cloud-swr-image-automation
管理SWR镜像同步、触发器和自动部署流程。
huawei-cloud-swr-enterprise-instance
skills/swr/huawei-cloud-swr-enterprise-instance
管理SWR企业实例、实例内命名空间、仓库、制品、凭证、端点和域名。
可观测与智能告警
| Skill名称 | 目录路径 | 功能描述 |
|---|---|---|
| observability-context-builder | skills/observability-context-builder | 汇聚AOM告警、指标、LTS日志、Pod日志和Kubernetes事件,形成诊断上下文。 |
| alarm-correlation-engine | skills/alarm-correlation-engine | 关联分析AOM active/history告警,完成去重归并、严重级别分组和告警规则核对。 |
| log-analyzer | skills/log-analyzer | 查询和分析Pod标准输出、CCE LogConfig应用日志和LTS日志。 |
| kubernetes-event-analyzer | skills/kubernetes-event-analyzer | 查询和分析Kubernetes Warning事件、重复模式及Pod、Node、Workload异常。 |
| metric-analyzer | skills/metric-analyzer | 查询和分析CCE Pod、Node及ECS、ELB、EIP、NAT指标,识别阈值异常。 |
故障诊断与自愈恢复
| Skill名称 | 目录路径 | 功能描述 |
|---|---|---|
| pod-failure-diagnoser | skills/pod-failure-diagnoser | 诊断CrashLoopBackOff、ImagePullBackOff、OOMKilled、Pending、Evicted 和频繁重启等Pod故障。 |
| workload-failure-diagnoser | skills/workload-failure-diagnoser | 诊断Deployment、StatefulSet、DaemonSet发布失败、滚动升级卡住、副本不足和探针异常。 |
| node-failure-diagnoser | skills/node-failure-diagnoser | 诊断Node NotReady、资源压力、NPD、CNI、kubelet和容器运行时异常。 |
| autoscaling-diagnoser | skills/autoscaling-diagnoser | 诊断HPA、Cluster Autoscaler链路故障。 |
| network-failure-diagnoser | skills/network-failure-diagnoser | 诊断Service、DNS、Ingress、NetworkPolicy、ELB、EIP、NAT和VPC网络故障。 |
| storage-failure-diagnoser | skills/storage-failure-diagnoser | 诊断PVC、PV、EVS、SFS、OBS、挂载、容量和删除保护相关故障。 |
| root-cause-analyzer | skills/root-cause-analyzer | 汇总跨域证据,输出Top根因、影响范围、置信度和恢复交接。 |
| change-impact-analyzer | skills/change-impact-analyzer | 分析发布、配置、网络、安全策略和节点变更造成的故障影响。 |
| dependency-impact-analyzer | skills/dependency-impact-analyzer | 基于Service、Ingress、Pod和Node拓扑分析故障传播路径和上下游影响。 |
| auto-remediation-runner | skills/auto-remediation-runner | 生成并执行受控恢复动作,所有高风险变更默认预览并要求明确确认。 |
巡检、治理与持续运维
| Skill名称 | 目录路径 | 功能描述 |
|---|---|---|
| daily-cluster-inspector | skills/daily-cluster-inspector | 执行周期性CCE健康检查、快速巡检和持续运维摘要。 |
| availability-risk-scanner | skills/availability-risk-scanner | 扫描高可用、AZ分布、单副本、PDB、探针、亲和性、网关和资源超配风险。 |
| capacity-trend-forecaster | skills/capacity-trend-forecaster | 分析周期性容量趋势,预测资源瓶颈,模拟HPA和节点弹性策略。 |
| cost-optimization-advisor | skills/cost-optimization-advisor | 分析空闲资源、过量Request、低利用率节点和弹性策略优化机会。 |
| ops-report-generator | skills/ops-report-generator | 汇总巡检、容量、可用性、成本和on-call上下文,生成周报、月报、SLA、容量和稳定性报告。 |
解决方案与交付
| Skill名称 | 目录路径 | 功能描述 |
|---|---|---|
| cce-cci-bursting-deployer | skills/cce-cci-bursting-deployer | 配置、部署并验证CCE到CCI 2.0的弹性扩容能力,包括VPCEP、virtual-kubelet 和冒烟验证。 |
| container-migration-planner | skills/container-migration-planner | 盘点容器平台资源和依赖,输出迁移批次、风险和验证方案,不执行真实迁移。 |
| 全链路压测 | skills/pressure-test | 构建从k6客户端经ELB、nginx-ingress到业务Pod的压测链路,收集观测数据并输出性能报告。 |
多云、多集群管理
UCS相关Skill统一放在本分类,不再混入CCE生命周期管理。
| Skill名称 | 目录路径 | 功能描述 |
|---|---|---|
| ucs-cluster-onboarding-manager | skills/ucs/ucs-cluster-onboarding-manager | 管理UCS集群纳管、生命周期、舰队分组、kubeconfig和资源配额。 |
| ucs-policy-governor | skills/ucs/ucs-policy-governor | 管理UCS策略实例、策略定义、启停操作、执行状态和舰队合规审计。 |
使用方式
Agent根据各Skill的SKILL.md中的description自动匹配能力。需要人工定位时,先按本文档找到目标Skill,再进入对应目录查看完整说明和引用资料。
在OpenCode中使用
OpenCode是面向终端的AI编程助手,支持通过项目目录或用户目录加载Skill。
- Skill类型
- 项目级Skill:将Skill目录放入项目根目录的skills/文件夹下。
my-project/ ├── src/ ├── skills/ │ ├── pod-failure-diagnoser/ │ │ ├── SKILL.md │ │ ├── manifest.json │ │ ├── skill-profile.yaml │ │ └── references/ │ ├── node-failure-diagnoser/ │ └── ...
OpenCode启动时会自动扫描项目目录下的skills/文件夹,加载所有Skill。您可以直接在对话中描述问题,Agent根据description自动匹配合适的Skill。
- 用户级Skill:将Skill目录放入用户配置目录。用户级Skill对所有项目生效,适合放置通用的运维Skill。
- Windows:%USERPROFILE%\.opencode\skills\
- Linux/macOS:~/.opencode/skills/
- 项目级Skill:将Skill目录放入项目根目录的skills/文件夹下。
- 使用示例
# 进入项目目录 cd my-project # 启动OpenCode,Skill已自动加载 opencode # 在对话中描述问题 > 我的Pod一直在重启,帮我看看 # Agent自动触发pod-failure-diagnoser
在OpenClaw中使用
OpenClaw是一个开源、自托管的Gateway,用于将聊天应用和渠道接入AI Agent。用户可以在本地或自有服务器上运行Gateway,并通过Skill扩展Agent能力。
OpenClaw可以从以下目录加载Skill:
| 目录 | 说明 |
|---|---|
| <workspace>/skills/ | 当前工作区Skill,适合项目级定制。 |
| <workspace>/.agents/skills/ | 当前工作区内的Agent项目级Skill。 |
| ~/.agents/skills/ | 多个Agent可共享的Skill。 |
| ~/.openclaw/skills/ | OpenClaw管理的Skill。 |
| skills.load.extraDirs | 通过配置追加的Skill目录。 |
OpenClaw还会加载安装时自带的Skill。将需要使用的Skill目录复制到相应的加载目录即可。例如:
mkdir -p ~/.agents/skills cp -R ./skills/pod-failure-diagnoser ~/.agents/skills/ cp -R ./skills/node-failure-diagnoser ~/.agents/skills/
每个Skill目录应包含 SKILL.md。OpenClaw加载Skill后,Agent可以根据用户意图选择合适的Skill,并按其中定义的工作流执行任务。
关于OpenClaw的定位、Skill加载顺序和目录说明,参见OpenClaw文档和OpenClaw Skills。
在Hermes中使用
Hermes是面向企业级AI Agent的服务编排平台,支持通过声明式配置集成Skill。
常见问题
当描述问题时,可参考下表快速定位推荐Skill。
| 问题描述 | 推荐Skill |
|---|---|
| Pod一直重启、Pending、OOMKilled | pod-failure-diagnoser |
| 发布失败、滚动升级卡住、副本不满足 | workload-failure-diagnoser |
| 节点NotReady、资源压力、节点漏洞 | node-failure-diagnoser |
| HPA不扩Pod、CA不扩节点、自动弹性不生效 | autoscaling-diagnoser |
| Ingress 502、Service不通、ELB链路异常 | network-failure-diagnoser |
| PVC Pending、FailedMount、容量耗尽 | storage-failure-diagnoser |
| CCE告警很多,需要合并分析 | alarm-correlation-engine |
| 查询Pod标准输出或LTS应用日志 | log-analyzer |
| 分析Kubernetes事件趋势 | kubernetes-event-analyzer |
| 查询CCE Pod/Node指标和资源使用排名 | metric-analyzer |
| 需要汇聚日志、事件、指标、告警 | observability-context-builder |
| 业务不可用,需要综合根因分析 | root-cause-analyzer |
| 发布、配置、网络、安全策略或节点变更后出现故障 | change-impact-analyzer |
| 某个服务故障会影响哪些入口和上下游 | dependency-impact-analyzer |
| 需要扩容、重启、drain、漏洞修复 | auto-remediation-runner |
| 做每日巡检或周期性健康检查 | daily-cluster-inspector |
| 做成本优化、Request过量分析 | cost-optimization-advisor |
| 做容量趋势预测、弹性模拟 | capacity-trend-forecaster |
| 做可用性风险扫描、PDB/探针检查 | availability-risk-scanner |
| 做周报、月报、SLA运维报告 | ops-report-generator |
| 做容器迁移方案和资源盘点 | container-migration-planner |
| CCE到CCI弹性扩容配置 | cce-cci-bursting-deployer |
| CCE集群版本升级规划 | cce-cluster-upgrade-planner |
| CCE/UCS工作负载管理 | cce-workload-manager |
| UCS集群纳管和舰队管理 | ucs-cluster-onboarding-manager |
| UCS策略治理和合规审计 | ucs-policy-governor |
| SWR镜像生命周期管理 | huawei-cloud-swr-image-management |
| SWR镜像治理 | huawei-cloud-swr-image-governance |
| SWR镜像自动化 | huawei-cloud-swr-image-automation |
| 压力测试方案和执行 | 全链路压测 |
相关文档
| 文档 | 说明 | 路径 |
|---|---|---|
| CCE产品资料 | 云容器引擎CCE官方文档 | |
| Skill开放仓库 | 华为云云原生Skill代码仓库 |