更新时间:2025-09-22 GMT+08:00
分享

诊断CCE

CCE智能诊断是一款面向 Kubernetes 的智能化运维工具,旨在自动检测并诊断K8s相关的问题,帮助运维人员快速发现并解决集群问题。当前版本已支持 Pod 的异常状态诊断和Node 节点的异常状态诊断。

前提条件

使用盘古Doer提问之前,必须先完成登录、实名认证和服务声明签署。

场景1: 工作负载诊断

分析Pod调度异常Pod拉取镜像异常Pod init容器异常Pod长时间处于ContainerCreatingod中容器处于CrashLoopBackOff状态Pod长期处于Terminating状态Pod被驱逐(Evicted)等问题

示例问题

  • 诊断CCE Pod
  • 诊断pod调度异常
  • Pod拉取镜像异常,诊断一下

举例

在工作负载列表详情页触发:

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 选择左侧导航栏的“工作负载”,在右侧选择对应的工作负载页签,例如“无状态负载”
  3. 点击需要诊断的工作负载实例名称,进入工作负载详情页面。
  4. 在实例列表中,找到状态异常的 Pod,点击其“状态”栏中的 “智能诊断” 按钮,即可启动诊断流程。

在“容器组”列表页触发:

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 选择左侧导航栏的“工作负载”,在右侧选择“容器组”页签。
  3. 在容器组列表中,找到状态异常的 Pod,点击其“状态”栏中的 “智能诊断” 按钮,即可启动诊断流程。

在“盘古Doer”按钮触发:

  1. 登录CCE控制台,单击右侧侧边栏的按钮,选择“盘古Doer”

2.打开盘古Doer,输入问题“cce pod诊断”

3.选择“集群”、“命名空间”、“pod”,点击“发起诊断”

约束与限制

关于AI建议的高风险操作执行规范

  • 对于AI建议的删除资源(如delete deployment)、强制更新(如kubectl replace --force)等操作,请确认修改影响。
  • 保留操作回滚信息,用于修改异常后的快速恢复。
  • 确认修改时段,避免业务高峰期操作。

场景2: Node 节点诊断

分析 Node 节点 CPU/内存使用率过高、Node 节点磁盘空间不足、Node 节点网络异常、Node 节点状态 NotReady、Node 节点污点配置异常、Node 节点 kubelet 异常、Node 节点 containerd 异常等问题

示例问题

  • 诊断 CCE Node 节点
  • 我的节点是否存在异常
  • Node 节点内存不足,诊断一下

举例

在 Node 节点列表详情页触发:

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 选择左侧导航栏的“节点管理”,在右侧选择“节点”页签。

  3. 在实例信息中,找到状态异常的 Node 节点,点击其“状态”栏中的 “智能诊断” 按钮,即可启动诊断流程。

在“盘古Doer”触发:

  1. 登录CCE控制台,单击右侧侧边栏的按钮,点击“盘古Doer”。

  2. 在对话框中输入问题:如“CCE Node 节点诊断”。

  3. 在弹出的卡片中选择需要诊断的集群和节点,点击“发起诊断”。

约束与限制

关于AI建议的高风险操作执行规范

  • 对于AI建议的删除资源(如delete deployment)、强制更新(如kubectl replace --force)等操作,请确认修改影响。
  • 保留操作回滚信息,用于修改异常后的快速恢复。
  • 确认修改时段,避免业务高峰期操作。

相关文档