CCE事件列表
在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。
- 集群数据面事件:集群运行过程中与用户操作相关的事件,包括工作负载、网络、节点、存储、弹性伸缩等事件。
- 集群控制面事件:集群运行过程中控制节点上报的事件,这些事件通常是由于控制面组件的故障、升级等情况引起。
集群数据面事件
| 类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
Pod | Pod内存不足OOM | PodOOMKilling | 重要 | 检查Pod是否因OOM退出。 该事件依赖节点故障检测插件(1.18.41及以上版本)和云原生日志采集插件(1.3.2及以上版本)。 |
Pod | 启动失败 | FailedStart | 重要 | 检查Pod是否启动成功。 |
Pod | 拉取镜像失败 | FailedPullImage | 重要 | 检查Pod是否拉取镜像成功。 |
Pod | 启动重试失败 | BackOffStart | 重要 | 检查Pod是否重启失败。 |
Pod | 调度失败 | FailedScheduling | 重要 | 检查Pod是否调度成功。 |
Pod | 拉取镜像重试失败 | BackOffPullImage | 重要 | 检查Pod重试拉取镜像是否成功。 |
Pod | 创建失败 | FailedCreate | 重要 | 检查Pod创建是否成功。 |
Pod | 状态异常 | Unhealthy | 次要 | 检查Pod健康检查是否成功。 |
Pod | 删除失败 | FailedDelete | 次要 | 检查工作负载是否删除成功。 |
Pod | 未拉取镜像异常 | ErrImageNeverPull | 次要 | 检查工作负载是否拉取镜像。 |
Pod | 扩容失败 | FailedScaleOut | 次要 | 检查工作负载副本扩容是否正常。 |
Pod | 待机失败 | FailedStandBy | 次要 | 检查Pod待机是否成功。 |
Pod | 更新配置失败 | FailedReconfig | 次要 | 检查Pod更新配置是否成功。 |
Pod | 激活失败 | FailedActive | 次要 | 检查Pod是否激活成功。 |
Pod | 回滚失败 | FailedRollback | 次要 | 检查Pod回滚是否成功。 |
Pod | 更新失败 | FailedUpdate | 次要 | 检查Pod更新是否成功。 |
Pod | 缩容失败 | FailedScaleIn | 次要 | 检查Pod缩容是否失败。 |
Pod | 重启失败 | FailedRestart | 次要 | 检查Pod重启是否成功。 |
Deployment | 标签选择器冲突 | SelectorOverlap | 次要 | 检查集群中标签选择器是否存在冲突。 |
Deployment | 副本集创建异常 | ReplicaSetCreateError | 次要 | 检查工作负载ReplicaSet创建副本是否正常。 |
Deployment | 部署回滚版本未发现 | DeploymentRollbackRevisionNotFound | 次要 | 检查Deployment负载回滚版本是否存在。 |
DaemonSet | 标签选择器异常 | SelectingAll | 次要 | 检查工作负载标签选择器是否设置异常。 |
Job | 太多活跃Pod | TooManyActivePods | 次要 | 检查Job达到预定的Pod数后,是否还存在活动状态的Pod。 |
Job | 太多成功Pod | TooManySucceededPods | 次要 | 检查Job达到预定的数量后,是否存在过多运行成功的Pod。 |
CronJob | 查询失败 | FailedGet | 次要 | 查询CronJob是否成功。 |
CronJob | 查询Pod列表失败 | FailedList | 次要 | 检查查询Pod列表是否成功。 |
CronJob | 未知Job | UnexpectedJob | 次要 | 检查CronJob是否出现未知的Job。 |
| 类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
Service | 创建负载均衡失败 | CreatingLoadBalancerFailed | 次要 | 检查创建ELB是否成功。 |
Service | 删除负载均衡失败 | DeletingLoadBalancerFailed | 次要 | 检查删除ELB是否成功。 |
Service | 更新负载均衡失败 | UpdateLoadBalancerFailed | 次要 | 检查更新ELB是否成功。 |
| 类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
Node | 节点重启 | Rebooted | 重要 | 检查节点是否重启。 |
Node | 节点不可调度 | NodeNotSchedulable | 重要 | 检查节点是否可调度。 |
Node | 节点状态异常 | NodeNotReady | 重要 | 检查节点状态是否异常。 |
Node | 节点创建失败 | NodeCreateFailed | 重要 | 检查节点是否创建成功。 |
Node | 节点挂载或卸载EVS盘失败 | FailedToAttachDetach | 重要 | 检查节点上是否存在挂载或者卸载失败的磁盘。 |
Node | 节点kubelet故障 | KUBELETIsDown | 次要 | 检查节点kubelet是否正常。 |
Node | 节点内存空间不足 | NodeHasInsufficientMemory | 次要 | 检查节点内存空间是否充足。 |
Node | 节点上发现未注册的网络设备 | UnregisterNetDevice | 次要 | 检查节点上是否绑定了未注册的网络设备。 |
Node | 网卡未发现 | NetworkCardNotFound | 次要 | 检查节点网卡状态。 |
Node | 节点kube-proxy故障 | KUBEPROXYIsDown | 次要 | 检查节点上的kube-proxy是否正常。 |
Node | 节点磁盘空间已满 | NodeOutOfDisk | 次要 | 检查节点磁盘空间是否正常。 |
Node | 节点任务夯住 | TaskHung | 次要 | 检查节点上是否存在夯住的任务。 |
Node | CIDR不可用 | CIDRNotAvailable | 次要 | 检查节点CIDR是否可用。 |
Node | 节点的连接跟踪表已满 | ConntrackFull | 次要 | 检查节点的连接跟踪表是否已满。 |
Node | 节点磁盘空间不足 | NodeHasDiskPressure | 次要 | 检查节点磁盘空间是否充足。 |
Node | 节点纳管失败 | NodeInstallFailed | 次要 | 检查集群纳管节点是否成功。 |
Node | 节点操作系统内核故障 | KernelOops | 次要 | 检查节点操作系统内核是否故障。 |
Node | 节点内存不足强杀进程 | OOMKilling | 次要 |
|
Node | 节点docker故障 | DOCKERIsDown | 次要 | 检查节点容器运行时是否正常。 |
Node | CIDR分配失败 | CIDRAssignmentFailed | 次要 | 检查节点CIDR分配是否成功。 |
Node | 节点docker夯住 | DockerHung | 次要 | 检查节点Docker进程是否夯住。 |
Node | 节点文件系统只读 | FilesystemIsReadOnly | 次要 | 检查节点文件系统是否只读。 |
Node | 节点ntp服务故障 | NTPIsDown | 次要 | 检查节点NTP服务是否正常。 |
Node | 节点卸载失败 | NodeUninstallFailed | 次要 | 检查节点卸载是否成功。 |
Node | 节点磁盘卸载夯住 | AUFSUmountHung | 次要 | 检查节点磁盘卸载是否夯住。 |
Node | 节点cni插件故障 | CNIIsDown | 次要 | 检查节点CNI插件是否故障。 |
Namespace | 废弃节点清理 | DeleteNodeWithNoServer | 次要 | 检查是否清理废弃节点。 |
| 类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
PV | 主机卸载块存储失败 | DetachVolumeFailed | 次要 | 检查卸载块存储是否成功。 |
PV | 卷回收策略未知 | VolumeUnknownReclaimPolicy | 次要 | 检查是否指定卷回收策略。 |
PV | 挂载数据卷失败 | SetUpAtVolumeFailed | 次要 | 检查数据卷挂载是否成功。 |
PV | 数据卷回收失败 | VolumeFailedRecycle | 次要 | 检查数据卷是否成功回收。 |
PV | 等待主机挂载块存储失败 | WaitForAttachVolumeFailed | 次要 | 检查节点挂载块存储是否成功。 |
PV | 数据卷删除失败 | VolumeFailedDelete | 次要 | 检查数据卷删除是否成功。 |
PV | 挂载盘符失败 | MountDeviceFailed | 次要 | 检查数据卷挂盘是否成功。 |
PV | 卸载数据卷失败 | TearDownAtVolumeFailed | 次要 | 检查数据卷卸载是否成功。 |
PV | 卸载盘符失败 | UnmountDeviceFailed | 次要 | 检查数据卷卸载盘符是否成功。 |
PV | 主机挂载块存储失败 | AttachVolumeFailed | 次要 | 检查节点卸载块存储是否成功。 |
PVC | 数据卷扩容失败 | VolumeResizeFailed | 次要 | 检查数据卷扩容是否成功。 |
PVC | 卷PVC丢失 | ClaimLost | 次要 | 检查PVC卷是否正常。 |
PVC | 创建卷失败 | ProvisioningFailed | 次要 | 检查创建数据卷是否正常。 |
PVC | 创建卷清理失败 | ProvisioningCleanupFailed | 次要 | 检查清理数据卷是否正常。 |
PVC | 卷误绑定 | ClaimMisbound | 次要 | 检查PVC是否绑定错误的卷。 |
| 类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
Autoscaler | 扩容节点超时 | ScaleUpTimedOut | 重要 | 检查节点池扩容节点是否超时。 |
Autoscaler | 节点池资源充足 | NodePoolAvailable | 重要 | 检查节点池资源是否充足。 |
Autoscaler | 缩容节点 | ScaleDown | 重要 | 集群正在缩容节点。 |
Autoscaler | 未触发节点扩容 | NotTriggerScaleUp | 重要 | 检查节点是否成功触发扩容。 |
Autoscaler | 删除未注册节点成功 | DeleteUnregistered | 重要 | 检查删除未注册的节点是否成功。 |
Autoscaler | 缩容空闲节点成功 | ScaleDownEmpty | 重要 | 检查缩容空闲节点是否成功。 |
Autoscaler | 缩容节点失败 | ScaleDownFailed | 重要 | 检查缩容节点是否成功。 |
Autoscaler | 节点池扩容节点失败 | FailedToScaleUpGroup | 重要 | 检查节点池扩容节点是否异常。 |
Autoscaler | 节点池扩容节点成功 | ScaledUpGroup | 重要 | 检查节点池扩容是否成功。 |
Autoscaler | 扩容节点失败 | ScaleUpFailed | 重要 | 检查节点扩容是否成功。 |
Autoscaler | 修复节点池节点个数成功 | FixNodeGroupSizeDone | 重要 | 检查修复节点池节点个数是否成功。 |
Autoscaler | 节点池退避重试中 | NodeGroupInBackOff | 重要 | 检查节点池扩缩容是否存在回退重试。 |
Autoscaler | 修复节点池节点个数失败 | FixNodeGroupSizeError | 重要 | 检查修复节点池节点个数是否成功。 |
Autoscaler | 节点池资源售罄 | NodePoolSoldOut | 重要 | 检查节点池资源是否充足。 |
Autoscaler | 触发节点扩容 | TriggeredScaleUp | 重要 | 检查节点是否触发扩容。 |
Autoscaler | 节点池扩容节点启动 | StartScaledUpGroup | 重要 | 检查节点池扩容是否启动。 |
Autoscaler | 删除未注册节点失败 | DeleteUnregisteredFailed | 重要 | 检查删除未注册的节点是否成功。 |
HPA | HPA非法指标范围 | InvalidTargetRange | 重要 |
|
HPA | HPA获取伸缩对象失败 | FailedGetScale | 重要 | HPA无法获取待伸缩的资源对象。 |
HPA | HPA计算资源扩缩副本数失败 | FailedComputeMetricsReplicas | 重要 | 一般是由于在计算需要为资源调整多少个副本数时出现了问题,例如metric-server不可用、资源指标采集失败、CPU利用率等设置不正确等。 可以通过以下命令查看详细的信息: kubectl describe horizontalpodautoscaler <hpa-name> |
HPA | HPA获取对象指标失败 | FailedGetObjectMetric | 重要 | 获取指定对象(PVC、ConfigMaps等)的指标失败。 |
HPA | HPA获取Pod资源指标失败 | FailedGetPodsMetric | 重要 | 获取Pod资源指标失败(单个Pod的资源利用率)。 |
HPA | HPA获取集群资源指标失败 | FailedGetResourceMetric | 重要 | 获取集群资源指标失败(整个集群的资源利用率)。 |
HPA | HPA获取容器资源指标失败 | FailedGetContainerResourceMetric | 重要 | 获取单个容器资源指标失败。 |
HPA | HPA获取外部指标失败 | FailedGetExternalMetric | 重要 | 获取外部指标失败。 |
HPA | HPA伸缩Pod失败 | FailedRescale | 重要 | 更新待伸缩资源对象的期望副本数失败。 |
HPA | Pod扩缩容成功 | SuccessfulRescale | 次要 | 更新待伸缩资源对象的期望副本数成功。 |
CronHPA | CronHPA伸缩失败 | ScaleFailed | 重要 | CronHPA更新待伸缩资源对象的期望副本数失败。 |
CronHPA | CronHPA查询关联HPA失败 | FailedGetHorizontalPodAutoscaler | 重要 | CronHPA查询关联的HPA对象失败(通常是kube-apiserver侧响应失败)。 |
CronHPA | CronHPA查询伸缩对象失败 | FailedGetHpaScale | 重要 | CronHPA获取待伸缩资源对象失败。 |
CronHPA | CronHPA更新关联HPA失败 | UpdateHPAFailed | 重要 | CronHPA更新关联的HPA对象失败。 |
CronHPA | 更新HPA策略成功 | UpdateHPASuccess | 次要 | CronHPA更新关联的HPA对象成功。 |
CronHPA | 跳过更新HPA策略 | SkipUpdateHPA | 次要 | CronHPA跳过更新关联的HPA对象。 |
CronHPA | 跳过更新工作负载实例数 | SkipUpdateTarget | 次要 | CronHPA跳过更新待伸缩资源对象的副本数。 |
CronHPA | 更新工作负载实例数成功 | UpdateTargetSuccess | 次要 | CronHPA更新待伸缩资源对象的副本数成功。 |
CustomedHPA | CustomedHPA解析冷却时间失败 | FailedSetPolicySettings | 重要 | 解析CustomedHPA的冷却时间失败。 |
CustomedHPA | CustomedHPA处理定时/指标规则失败 | FailedSubmitRule | 重要 | CustomedHPA处理定时规则或指标规则失败。 |
CustomedHPA | CustomedHPA计算资源扩缩副本数失败 | FailedComputeReplicas | 重要 | CustomedHPA计算指标触发资源扩缩容失败。 |
CustomedHPA | CustomedHPA伸缩Pod失败 | FailedScale | 重要 | CustomedHPA更新待伸缩资源对象的期望副本数失败(通常是kube-apiserver侧响应失败)。 |
CustomedHPA | CustomedHPA指标扩缩容成功 | MetricScaleSuccess | 次要 | CustomedHPA根据指标规则触发资源扩缩容成功。 |
CustomedHPA | CustomedHPA周期扩缩容成功 | CronScaleSuccess | 次要 | CustomedHPA根据周期规则触发资源扩缩容成功。 |
集群控制面事件
| 事件名称 | 事件ID | 事件级别 | 事件说明 |
|---|---|---|---|
内部故障 | Internal error | 重要 | 检查集群是否出现内部故障。 |
外部依赖异常 | External dependency error | 重要 | 检查集群是否存在外部依赖异常。 |
初始化执行线程失败 | Failed to initialize process thread | 重要 | 检查集群初始化执行线程是否成功。 |
更新数据库失败 | Failed to update database | 重要 | 检查集群更新数据库是否成功。 |
节点池触发创建节点失败 | Failed to create node by nodepool | 重要 | 检查节点池中创建节点是否成功。 |
节点池触发删除节点失败 | Failed to delete node by nodepool | 重要 | 检查节点池中删除节点是否成功。 |
创建包周期节点失败 | Failed to create yearly/monthly subscription node | 重要 | 检查集群创建包周期的节点是否成功。 |
解除资源租户访问控制节点镜像的授权失败 | Failed to cancel the authorization of accessing the image of the master. | 重要 | 创建集群时,检查解除资源租户访问控制节点镜像的授权是否成功。 |
创建虚拟IP失败 | Failed to create the virtual IP for the master | 重要 | 创建集群时检查创建虚拟IP是否成功。 |
删除节点虚拟机失败 | Failed to delete the node VM | 重要 | 检查集群删除节点虚拟机是否成功。 |
删除节点安全组失败 | Failed to delete the security group of node | 重要 | 检查集群删除节点安全组是否成功。 |
删除控制节点安全组失败 | Failed to delete the security group of master | 重要 | 检查集群删除控制节点安全组是否成功。 |
删除控制节点网卡安全组失败 | Failed to delete the security group of port | 重要 | 检查集群删除控制节点网卡安全组是否成功。 |
删除集群ENI/SubENI安全组失败 | Failed to delete the security group of eni or subeni | 重要 | 检查集群删除ENI/SubENI安全组是否成功。 |
解绑控制节点网卡失败 | Failed to detach the port of master | 重要 | 检查集群解绑控制节点网卡是否成功。 |
删除控制节点网卡失败 | Failed to delete the port of master | 重要 | 检查集群删除控制节点网卡是否成功。 |
删除控制节点虚拟机失败 | Failed to delete the master VM | 重要 | 检查集群删除控制节点虚拟机是否成功。 |
删除控制节点密钥对失败 | Failed to delete the key pair of master | 重要 | 检查集群删除控制节点密钥对是否成功。 |
删除控制节点subnet失败 | Failed to delete the subnet of master | 重要 | 检查集群删除控制节点subnet是否成功。 |
删除控制节点VPC失败 | Failed to delete the VPC of master | 重要 | 检查集群删除控制节点VPC是否成功。 |
删除集群证书失败 | Failed to delete certificate of cluster | 重要 | 检查集群删除集群证书是否成功。 |
删除控制节点云服务器组失败 | Failed to delete the server group of master | 重要 | 检查集群删除控制节点云服务器组是否成功。 |
删除虚拟IP失败 | Failed to delete the virtual IP for the master | 重要 | 检查集群删除虚拟IP是否成功。 |
获取控制节点浮动IP失败 | Failed to get floating IP of the master | 重要 | 检查获取控制节点浮动IP是否成功。 |
获取集群规格信息失败 | Failed to get cluster flavor | 重要 | 检查获取集群规格信息是否成功。 |
获取集群endpoint失败 | Failed to get cluster endpoint | 重要 | 检查获取集群endpoint是否成功。 |
获取Kubernetes集群连接失败 | Failed to get kubernetes connection | 重要 | 检查获取Kubernetes集群连接是否成功。 |
更新集群Secret失败 | Failed to update secret | 重要 | 检查更新集群Secret是否成功。 |
处理用户操作超时 | Operation timed out | 重要 | 检查处理用户操作是否超时。 |
连接Kubernetes集群超时 | Connecting to Kubernetes cluster timed out | 重要 | 检查连接Kubernetes集群是否超时。 |
检查组件状态失败或组件状态异常 | Failed to check component status or components are abnormal | 重要 | 检查集群检查组件状态是否成功,或组件状态是否异常。 |
无法在Kubernetes集群中找到该节点 | The node is not found in kubernetes cluster | 重要 | 检查是否能在Kubernetes集群中找到该节点。 |
节点在Kubernetes集群中状态异常 | The status of node is not ready in kubernetes cluster | 重要 | 检查节点在Kubernetes集群中状态是否正常。 |
无法在ECS服务中找到该节点对应的虚拟机 | Can't find corresponding vm of this node in ECS | 重要 | 检查能否在ECS服务中找到该节点对应的虚拟机。 |
升级控制节点失败 | Failed to upgrade the master | 重要 | 检查升级控制节点是否成功。 |
升级节点失败 | Failed to upgrade the node | 重要 | 检查升级节点是否成功。 |
变更控制节点规格失败 | Failed to change flavor of the master | 重要 | 检查变更控制节点规格是否成功。 |
变更控制节点规格超时 | Change flavor of the master timeout | 重要 | 检查变更控制节点规格是否超时。 |
创建包周期节点校验不通过 | Failed to pass verification while creating yearly/monthly subscription node | 重要 | 检查创建包周期节点校验是否成功。 |
安装节点失败 | Failed to install the node | 重要 | 检查集群安装节点是否成功。 |
清理VPC中集群容器网络路由表条目失败 | Failed to clean routes of cluster container network in VPC | 重要 | 检查清理VPC中集群容器网络路由表条目是否成功。 |
集群状态不可用 | Cluster status is Unavailable | 重要 | 检查集群状态是否可用。 |
集群状态故障 | Cluster status is Error | 重要 | 检查集群是否出现故障。 |
集群状态长时间不更新 | Cluster status is not updated for a long time | 重要 | 检查集群状态是否长时间不更新。 |
集群升级超时后更新控制节点状态失败 | Failed to update master status after upgrading cluster timeout | 重要 | 检查集群升级超时后更新控制节点状态是否成功。 |
集群升级超时后更新运行中的任务失败 | Failed to update running jobs after upgrading cluster timeout | 重要 | 检查集群升级超时后更新运行中的任务是否成功。 |
更新集群状态失败 | Failed to update cluster status | 重要 | 检查更新集群状态是否成功。 |
更新节点状态失败 | Failed to update node status | 重要 | 检查更新节点状态是否成功。 |
纳管节点超时后移除数据库中的节点记录失败 | Failed to remove the static node from database | 重要 | 检查纳管节点超时后移除数据库中的节点记录是否成功。 |
节点处理超时后更新节点状态为异常失败 | Failed to update node status to abnormal after node processing timeout | 重要 | 检查节点处理超时后,是否更新节点状态为异常。 |
更新集群访问地址失败 | Failed to update the cluster endpoint | 重要 | 检查更新集群访问地址是否成功。 |
删除不可用的Kubernetes连接失败 | Failed to delete the unavailable connection of the Kubernetes cluster | 重要 | 检查删除不可用的Kubernetes连接是否成功。 |
同步集群证书失败 | Failed to sync the cluster cert | 重要 | 检查同步集群证书是否成功。 |

