CCE Autopilot集群事件列表
在集群运行过程中,CCE Autopilot集群会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。
集群数据面事件
类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
Pod | Pod内存不足OOM | PodOOMKilling | 重要 | 检查Pod是否因OOM退出。 该事件依赖节点故障检测插件(1.18.41及以上版本)和云原生日志采集插件(1.3.2及以上版本)。 |
Pod | 启动失败 | FailedStart | 重要 | 检查Pod是否启动成功。 |
Pod | 拉取镜像失败 | FailedPullImage | 重要 | 检查Pod是否拉取镜像成功。 |
Pod | 启动重试失败 | BackOffStart | 重要 | 检查Pod是否重启失败。 |
Pod | 调度失败 | FailedScheduling | 重要 | 检查Pod是否调度成功。 |
Pod | 拉取镜像重试失败 | BackOffPullImage | 重要 | 检查Pod重试拉取镜像是否成功。 |
Pod | 创建失败 | FailedCreate | 重要 | 检查Pod创建是否成功。 |
Pod | 状态异常 | Unhealthy | 次要 | 检查Pod健康检查是否成功。 |
Pod | 删除失败 | FailedDelete | 次要 | 检查工作负载是否删除成功。 |
Pod | 未拉取镜像异常 | ErrImageNeverPull | 次要 | 检查工作负载是否拉取镜像。 |
Pod | 扩容失败 | FailedScaleOut | 次要 | 检查工作负载副本扩容是否正常。 |
Pod | 更新配置失败 | FailedReconfig | 次要 | 检查Pod更新配置是否成功。 |
Pod | 激活失败 | FailedActive | 次要 | 检查Pod是否激活成功。 |
Pod | 回滚失败 | FailedRollback | 次要 | 检查Pod回滚是否成功。 |
Pod | 更新失败 | FailedUpdate | 次要 | 检查Pod更新是否成功。 |
Pod | 缩容失败 | FailedScaleIn | 次要 | 检查Pod缩容是否失败。 |
Pod | 重启失败 | FailedRestart | 次要 | 检查Pod重启是否成功。 |
Deployment | 标签选择器冲突 | SelectorOverlap | 次要 | 检查集群中标签选择器是否存在冲突。 |
Deployment | 副本集创建异常 | ReplicaSetCreateError | 次要 | 检查工作负载ReplicaSet创建副本是否正常。 |
Deployment | 部署回滚版本未发现 | DeploymentRollbackRevisionNotFound | 次要 | 检查Deployment负载回滚版本是否存在。 |
Job | 太多活跃Pod | TooManyActivePods | 次要 | 检查Job达到预定的Pod数后,是否还存在活动状态的Pod。 |
Job | 太多成功Pod | TooManySucceededPods | 次要 | 检查Job达到预定的数量后,是否存在过多运行成功的Pod。 |
CronJob | 查询失败 | FailedGet | 次要 | 查询CronJob是否成功。 |
CronJob | 查询Pod列表失败 | FailedList | 次要 | 检查查询Pod列表是否成功。 |
CronJob | 未知Job | UnexpectedJob | 次要 | 检查CronJob是否出现未知的Job。 |
类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
Service | 创建负载均衡失败 | CreatingLoadBalancerFailed | 次要 | 检查创建ELB是否成功。 |
Service | 删除负载均衡失败 | DeletingLoadBalancerFailed | 次要 | 检查删除ELB是否成功。 |
Service | 更新负载均衡失败 | UpdateLoadBalancerFailed | 次要 | 检查更新ELB是否成功。 |
类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
PV | 主机卸载块存储失败 | DetachVolumeFailed | 次要 | 检查卸载块存储是否成功。 |
PV | 卷回收策略未知 | VolumeUnknownReclaimPolicy | 次要 | 检查是否指定卷回收策略。 |
PV | 挂载数据卷失败 | SetUpAtVolumeFailed | 次要 | 检查数据卷挂载是否成功。 |
PV | 数据卷回收失败 | VolumeFailedRecycle | 次要 | 检查数据卷是否成功回收。 |
PV | 等待主机挂载块存储失败 | WaitForAttachVolumeFailed | 次要 | 检查节点挂载块存储是否成功。 |
PV | 数据卷删除失败 | VolumeFailedDelete | 次要 | 检查数据卷删除是否成功。 |
PV | 挂载盘符失败 | MountDeviceFailed | 次要 | 检查数据卷挂盘是否成功。 |
PV | 卸载数据卷失败 | TearDownAtVolumeFailed | 次要 | 检查数据卷卸载是否成功。 |
PV | 卸载盘符失败 | UnmountDeviceFailed | 次要 | 检查数据卷卸载盘符是否成功。 |
PV | 主机挂载块存储失败 | AttachVolumeFailed | 次要 | 检查节点卸载块存储是否成功。 |
PVC | 数据卷扩容失败 | VolumeResizeFailed | 次要 | 检查数据卷扩容是否成功。 |
PVC | 卷PVC丢失 | ClaimLost | 次要 | 检查PVC卷是否正常。 |
PVC | 创建卷失败 | ProvisioningFailed | 次要 | 检查创建数据卷是否正常。 |
PVC | 创建卷清理失败 | ProvisioningCleanupFailed | 次要 | 检查清理数据卷是否正常。 |
PVC | 卷误绑定 | ClaimMisbound | 次要 | 检查PVC是否绑定错误的卷。 |
类别 | 事件描述 | 事件名称 | 事件级别 | 更多说明 |
|---|---|---|---|---|
HPA | HPA非法指标范围 | InvalidTargetRange | 重要 |
|
HPA | HPA获取伸缩对象失败 | FailedGetScale | 重要 | HPA无法获取待伸缩的资源对象。 |
HPA | HPA计算资源扩缩副本数失败 | FailedComputeMetricsReplicas | 重要 | 一般是由于在计算需要为资源调整多少个副本数时出现了问题,例如metric-server不可用、资源指标采集失败、CPU利用率等设置不正确等。 可以通过以下命令查看详细的信息: kubectl describe horizontalpodautoscaler <hpa-name> |
HPA | HPA获取对象指标失败 | FailedGetObjectMetric | 重要 | 获取指定对象(PVC、ConfigMaps等)的指标失败。 |
HPA | HPA获取Pod资源指标失败 | FailedGetPodsMetric | 重要 | 获取Pod资源指标失败(单个Pod的资源利用率)。 |
HPA | HPA获取集群资源指标失败 | FailedGetResourceMetric | 重要 | 获取集群资源指标失败(整个集群的资源利用率)。 |
HPA | HPA获取容器资源指标失败 | FailedGetContainerResourceMetric | 重要 | 获取单个容器资源指标失败。 |
HPA | HPA获取外部指标失败 | FailedGetExternalMetric | 重要 | 获取外部指标失败。 |
HPA | HPA伸缩Pod失败 | FailedRescale | 重要 | 更新待伸缩资源对象的期望副本数失败。 |
HPA | Pod扩缩容成功 | SuccessfulRescale | 次要 | 更新待伸缩资源对象的期望副本数成功。 |
CronHPA | CronHPA伸缩失败 | ScaleFailed | 重要 | CronHPA更新待伸缩资源对象的期望副本数失败。 |
CronHPA | CronHPA查询关联HPA失败 | FailedGetHorizontalPodAutoscaler | 重要 | CronHPA查询关联的HPA对象失败(通常是kube-apiserver侧响应失败)。 |
CronHPA | CronHPA查询伸缩对象失败 | FailedGetHpaScale | 重要 | CronHPA获取待伸缩资源对象失败。 |
CronHPA | CronHPA更新关联HPA失败 | UpdateHPAFailed | 重要 | CronHPA更新关联的HPA对象失败。 |
CronHPA | 更新HPA策略成功 | UpdateHPASuccess | 次要 | CronHPA更新关联的HPA对象成功。 |
CronHPA | 跳过更新HPA策略 | SkipUpdateHPA | 次要 | CronHPA跳过更新关联的HPA对象。 |
CronHPA | 跳过更新工作负载实例数 | SkipUpdateTarget | 次要 | CronHPA跳过更新待伸缩资源对象的副本数。 |
CronHPA | 更新工作负载实例数成功 | UpdateTargetSuccess | 次要 | CronHPA更新待伸缩资源对象的副本数成功。 |
集群控制面事件
事件名称 | 事件ID | 事件级别 | 事件说明 |
|---|---|---|---|
内部故障 | Internal error | 重要 | 检查集群是否出现内部故障。 |
检查组件状态失败或组件状态异常 | Failed to check component status or components are abnormal | 重要 | 检查集群检查组件状态是否成功,或组件状态是否异常。 |
集群状态不可用 | Cluster status is Unavailable | 重要 | 检查集群状态是否可用。 |
集群状态故障 | Cluster status is Error | 重要 | 检查集群是否出现故障。 |
集群状态长时间不更新 | Cluster status is not updated for a long time | 重要 | 检查集群状态是否长时间不更新。 |
更新集群状态失败 | Failed to update cluster status | 重要 | 检查更新集群状态是否成功。 |
删除不可用的Kubernetes连接失败 | Failed to delete the unavailable connection of the Kubernetes cluster | 重要 | 检查删除不可用的Kubernetes连接是否成功。 |
同步集群证书失败 | Failed to sync the cluster cert | 重要 | 检查同步集群证书是否成功。 |

