CCE事件列表
在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。
- 集群数据面事件:集群运行过程中与用户操作相关的事件,包括工作负载、网络、节点、存储、弹性伸缩等事件。
- 集群控制面事件:集群运行过程中控制节点上报的事件,这些事件通常是由于控制面组件的故障、升级等情况引起。
集群数据面事件
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
Pod |
Pod内存不足OOM |
PodOOMKilling |
重要 |
检查Pod是否因OOM退出。 该事件依赖节点故障检测插件(1.18.41及以上版本)和云原生日志采集插件(1.3.2及以上版本)。 |
Pod |
启动失败 |
FailedStart |
重要 |
检查Pod是否启动成功。 |
Pod |
拉取镜像失败 |
FailedPullImage |
重要 |
检查Pod是否拉取镜像成功。 |
Pod |
启动重试失败 |
BackOffStart |
重要 |
检查Pod是否重启失败。 |
Pod |
调度失败 |
FailedScheduling |
重要 |
检查Pod是否调度成功。 |
Pod |
拉取镜像重试失败 |
BackOffPullImage |
重要 |
检查Pod重试拉取镜像是否成功。 |
Pod |
创建失败 |
FailedCreate |
重要 |
检查Pod创建是否成功。 |
Pod |
状态异常 |
Unhealthy |
次要 |
检查Pod健康检查是否成功。 |
Pod |
删除失败 |
FailedDelete |
次要 |
检查工作负载是否删除成功。 |
Pod |
未拉取镜像异常 |
ErrImageNeverPull |
次要 |
检查工作负载是否拉取镜像。 |
Pod |
扩容失败 |
FailedScaleOut |
次要 |
检查工作负载副本扩容是否正常。 |
Pod |
待机失败 |
FailedStandBy |
次要 |
检查Pod待机是否成功。 |
Pod |
更新配置失败 |
FailedReconfig |
次要 |
检查Pod更新配置是否成功。 |
Pod |
激活失败 |
FailedActive |
次要 |
检查Pod是否激活成功。 |
Pod |
回滚失败 |
FailedRollback |
次要 |
检查Pod回滚是否成功。 |
Pod |
更新失败 |
FailedUpdate |
次要 |
检查Pod更新是否成功。 |
Pod |
缩容失败 |
FailedScaleIn |
次要 |
检查Pod缩容是否失败。 |
Pod |
重启失败 |
FailedRestart |
次要 |
检查Pod重启是否成功。 |
Deployment |
标签选择器冲突 |
SelectorOverlap |
次要 |
检查集群中标签选择器是否存在冲突。 |
Deployment |
副本集创建异常 |
ReplicaSetCreateError |
次要 |
检查工作负载ReplicaSet创建副本是否正常。 |
Deployment |
部署回滚版本未发现 |
DeploymentRollbackRevisionNotFound |
次要 |
检查Deployment负载回滚版本是否存在。 |
DaemonSet |
标签选择器异常 |
SelectingAll |
次要 |
检查工作负载标签选择器是否设置异常。 |
Job |
太多活跃Pod |
TooManyActivePods |
次要 |
检查Job达到预定的Pod数后,是否还存在活动状态的Pod。 |
Job |
太多成功Pod |
TooManySucceededPods |
次要 |
检查Job达到预定的数量后,是否存在过多运行成功的Pod。 |
CronJob |
查询失败 |
FailedGet |
次要 |
查询CronJob是否成功。 |
CronJob |
查询Pod列表失败 |
FailedList |
次要 |
检查查询Pod列表是否成功。 |
CronJob |
未知Job |
UnexpectedJob |
次要 |
检查CronJob是否出现未知的Job。 |
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
Service |
创建负载均衡失败 |
CreatingLoadBalancerFailed |
次要 |
检查创建ELB是否成功。 |
Service |
删除负载均衡失败 |
DeletingLoadBalancerFailed |
次要 |
检查删除ELB是否成功。 |
Service |
更新负载均衡失败 |
UpdateLoadBalancerFailed |
次要 |
检查更新ELB是否成功。 |
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
Node |
节点重启 |
Rebooted |
重要 |
检查节点是否重启。 |
Node |
节点不可调度 |
NodeNotSchedulable |
重要 |
检查节点是否可调度。 |
Node |
节点状态异常 |
NodeNotReady |
重要 |
检查节点状态是否异常。 |
Node |
节点创建失败 |
NodeCreateFailed |
重要 |
检查节点是否创建成功。 |
Node |
节点kubelet故障 |
KUBELETIsDown |
次要 |
检查节点kubelet是否正常。 |
Node |
节点内存空间不足 |
NodeHasInsufficientMemory |
次要 |
检查节点内存空间是否充足。 |
Node |
节点上发现未注册的网络设备 |
UnregisterNetDevice |
次要 |
检查节点上是否绑定了未注册的网络设备。 |
Node |
网卡未发现 |
NetworkCardNotFound |
次要 |
检查节点网卡状态。 |
Node |
节点kube-proxy故障 |
KUBEPROXYIsDown |
次要 |
检查节点上的kube-proxy是否正常。 |
Node |
节点磁盘空间已满 |
NodeOutOfDisk |
次要 |
检查节点磁盘空间是否正常。 |
Node |
节点任务夯住 |
TaskHung |
次要 |
检查节点上是否存在夯住的任务。 |
Node |
CIDR不可用 |
CIDRNotAvailable |
次要 |
检查节点CIDR是否可用。 |
Node |
节点的连接跟踪表已满 |
ConntrackFull |
次要 |
检查节点的连接跟踪表是否已满。 |
Node |
节点磁盘空间不足 |
NodeHasDiskPressure |
次要 |
检查节点磁盘空间是否充足。 |
Node |
节点纳管失败 |
NodeInstallFailed |
次要 |
检查集群纳管节点是否成功。 |
Node |
节点操作系统内核故障 |
KernelOops |
次要 |
检查节点操作系统内核是否故障。 |
Node |
节点内存不足强杀进程 |
OOMKilling |
次要 |
|
Node |
节点docker故障 |
DOCKERIsDown |
次要 |
检查节点容器引擎是否正常。 |
Node |
CIDR分配失败 |
CIDRAssignmentFailed |
次要 |
检查节点CIDR分配是否成功。 |
Node |
节点docker夯住 |
DockerHung |
次要 |
检查节点Docker进程是否夯住。 |
Node |
节点文件系统只读 |
FilesystemIsReadOnly |
次要 |
检查节点文件系统是否只读。 |
Node |
节点ntp服务故障 |
NTPIsDown |
次要 |
检查节点NTP服务是否正常。 |
Node |
节点卸载失败 |
NodeUninstallFailed |
次要 |
检查节点卸载是否成功。 |
Node |
节点磁盘卸载夯住 |
AUFSUmountHung |
次要 |
检查节点磁盘卸载是否夯住。 |
Node |
节点cni插件故障 |
CNIIsDown |
次要 |
检查节点CNI插件是否故障。 |
Namespace |
废弃节点清理 |
DeleteNodeWithNoServer |
次要 |
检查是否清理废弃节点。 |
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
PV |
主机卸载块存储失败 |
DetachVolumeFailed |
次要 |
检查卸载块存储是否成功。 |
PV |
卷回收策略未知 |
VolumeUnknownReclaimPolicy |
次要 |
检查是否指定卷回收策略。 |
PV |
挂载数据卷失败 |
SetUpAtVolumeFailed |
次要 |
检查数据卷挂载是否成功。 |
PV |
数据卷回收失败 |
VolumeFailedRecycle |
次要 |
检查数据卷是否成功回收。 |
PV |
等待主机挂载块存储失败 |
WaitForAttachVolumeFailed |
次要 |
检查节点挂载块存储是否成功。 |
PV |
数据卷删除失败 |
VolumeFailedDelete |
次要 |
检查数据卷删除是否成功。 |
PV |
挂载盘符失败 |
MountDeviceFailed |
次要 |
检查数据卷挂盘是否成功。 |
PV |
卸载数据卷失败 |
TearDownAtVolumeFailed |
次要 |
检查数据卷卸载是否成功。 |
PV |
卸载盘符失败 |
UnmountDeviceFailed |
次要 |
检查数据卷卸载盘符是否成功。 |
PV |
主机挂载块存储失败 |
AttachVolumeFailed |
次要 |
检查节点卸载块存储是否成功。 |
PVC |
数据卷扩容失败 |
VolumeResizeFailed |
次要 |
检查数据卷扩容是否成功。 |
PVC |
卷PVC丢失 |
ClaimLost |
次要 |
检查PVC卷是否正常。 |
PVC |
创建卷失败 |
ProvisioningFailed |
次要 |
检查创建数据卷是否正常。 |
PVC |
创建卷清理失败 |
ProvisioningCleanupFailed |
次要 |
检查清理数据卷是否正常。 |
PVC |
卷误绑定 |
ClaimMisbound |
次要 |
检查PVC是否绑定错误的卷。 |
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
Autoscaler |
扩容节点超时 |
ScaleUpTimedOut |
重要 |
检查节点池扩容节点是否超时。 |
Autoscaler |
节点池资源充足 |
NodePoolAvailable |
重要 |
检查节点池资源是否充足。 |
Autoscaler |
缩容节点 |
ScaleDown |
重要 |
集群正在缩容节点。 |
Autoscaler |
未触发节点扩容 |
NotTriggerScaleUp |
重要 |
检查节点是否成功触发扩容。 |
Autoscaler |
删除未注册节点成功 |
DeleteUnregistered |
重要 |
检查删除未注册的节点是否成功。 |
Autoscaler |
缩容空闲节点成功 |
ScaleDownEmpty |
重要 |
检查缩容空闲节点是否成功。 |
Autoscaler |
缩容节点失败 |
ScaleDownFailed |
重要 |
检查缩容节点是否成功。 |
Autoscaler |
节点池扩容节点失败 |
FailedToScaleUpGroup |
重要 |
检查节点池扩容节点是否异常。 |
Autoscaler |
节点池扩容节点成功 |
ScaledUpGroup |
重要 |
检查节点池扩容是否成功。 |
Autoscaler |
扩容节点失败 |
ScaleUpFailed |
重要 |
检查节点扩容是否成功。 |
Autoscaler |
修复节点池节点个数成功 |
FixNodeGroupSizeDone |
重要 |
检查修复节点池节点个数是否成功。 |
Autoscaler |
节点池退避重试中 |
NodeGroupInBackOff |
重要 |
检查节点池扩缩容是否存在回退重试。 |
Autoscaler |
修复节点池节点个数失败 |
FixNodeGroupSizeError |
重要 |
检查修复节点池节点个数是否成功。 |
Autoscaler |
节点池资源售罄 |
NodePoolSoldOut |
重要 |
检查节点池资源是否充足。 |
Autoscaler |
触发节点扩容 |
TriggeredScaleUp |
重要 |
检查节点是否触发扩容。 |
Autoscaler |
节点池扩容节点启动 |
StartScaledUpGroup |
重要 |
检查节点池扩容是否启动。 |
Autoscaler |
删除未注册节点失败 |
DeleteUnregisteredFailed |
重要 |
检查删除未注册的节点是否成功。 |
HPA |
HPA非法指标范围 |
InvalidTargetRange |
重要 |
|
HPA |
HPA获取伸缩对象失败 |
FailedGetScale |
重要 |
HPA无法获取待伸缩的资源对象。 |
HPA |
HPA计算资源扩缩副本数失败 |
FailedComputeMetricsReplicas |
重要 |
一般是由于在计算需要为资源调整多少个副本数时出现了问题,例如metric-server不可用、资源指标采集失败、CPU利用率等设置不正确等。 可以通过以下命令查看详细的信息: kubectl describe horizontalpodautoscaler <hpa-name> |
HPA |
HPA获取对象指标失败 |
FailedGetObjectMetric |
重要 |
获取指定对象(PVC、ConfigMaps等)的指标失败。 |
HPA |
HPA获取Pod资源指标失败 |
FailedGetPodsMetric |
重要 |
获取Pod资源指标失败(单个Pod的资源利用率)。 |
HPA |
HPA获取集群资源指标失败 |
FailedGetResourceMetric |
重要 |
获取集群资源指标失败(整个集群的资源利用率)。 |
HPA |
HPA获取容器资源指标失败 |
FailedGetContainerResourceMetric |
重要 |
获取单个容器资源指标失败。 |
HPA |
HPA获取外部指标失败 |
FailedGetExternalMetric |
重要 |
获取外部指标失败。 |
HPA |
HPA伸缩Pod失败 |
FailedRescale |
重要 |
更新待伸缩资源对象的期望副本数失败。 |
HPA |
Pod扩缩容成功 |
SuccessfulRescale |
次要 |
更新待伸缩资源对象的期望副本数成功。 |
CronHPA |
CronHPA伸缩失败 |
ScaleFailed |
重要 |
CronHPA更新待伸缩资源对象的期望副本数失败。 |
CronHPA |
CronHPA查询关联HPA失败 |
FailedGetHorizontalPodAutoscaler |
重要 |
CronHPA查询关联的HPA对象失败(通常是kube-apiserver侧响应失败)。 |
CronHPA |
CronHPA查询伸缩对象失败 |
FailedGetHpaScale |
重要 |
CronHPA获取待伸缩资源对象失败。 |
CronHPA |
CronHPA更新关联HPA失败 |
UpdateHPAFailed |
重要 |
CronHPA更新关联的HPA对象失败。 |
CronHPA |
更新HPA策略成功 |
UpdateHPASuccess |
次要 |
CronHPA更新关联的HPA对象成功。 |
CronHPA |
跳过更新HPA策略 |
SkipUpdateHPA |
次要 |
CronHPA跳过更新关联的HPA对象。 |
CronHPA |
跳过更新工作负载实例数 |
SkipUpdateTarget |
次要 |
CronHPA跳过更新待伸缩资源对象的副本数。 |
CronHPA |
更新工作负载实例数成功 |
UpdateTargetSuccess |
次要 |
CronHPA更新待伸缩资源对象的副本数成功。 |
CustomedHPA |
CustomedHPA解析冷却时间失败 |
FailedSetPolicySettings |
重要 |
解析CustomedHPA的冷却时间失败。 |
CustomedHPA |
CustomedHPA处理定时/指标规则失败 |
FailedSubmitRule |
重要 |
CustomedHPA处理定时规则或指标规则失败。 |
CustomedHPA |
CustomedHPA计算资源扩缩副本数失败 |
FailedComputeReplicas |
重要 |
CustomedHPA计算指标触发资源扩缩容失败。 |
CustomedHPA |
CustomedHPA伸缩Pod失败 |
FailedScale |
重要 |
CustomedHPA更新待伸缩资源对象的期望副本数失败(通常是kube-apiserver侧响应失败)。 |
CustomedHPA |
CustomedHPA指标扩缩容成功 |
MetricScaleSuccess |
次要 |
CustomedHPA根据指标规则触发资源扩缩容成功。 |
CustomedHPA |
CustomedHPA周期扩缩容成功 |
CronScaleSuccess |
次要 |
CustomedHPA根据周期规则触发资源扩缩容成功。 |
集群控制面事件
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|
内部故障 |
Internal error |
重要 |
检查集群是否出现内部故障。 |
外部依赖异常 |
External dependency error |
重要 |
检查集群是否存在外部依赖异常。 |
初始化执行线程失败 |
Failed to initialize process thread |
重要 |
检查集群初始化执行线程是否成功。 |
更新数据库失败 |
Failed to update database |
重要 |
检查集群更新数据库是否成功。 |
节点池触发创建节点失败 |
Failed to create node by nodepool |
重要 |
检查节点池中创建节点是否成功。 |
节点池触发删除节点失败 |
Failed to delete node by nodepool |
重要 |
检查节点池中删除节点是否成功。 |
创建包周期节点失败 |
Failed to create yearly/monthly subscription node |
重要 |
检查集群创建包周期的节点是否成功。 |
解除资源租户访问控制节点镜像的授权失败 |
Failed to cancel the authorization of accessing the image of the master. |
重要 |
创建集群时,检查解除资源租户访问控制节点镜像的授权是否成功。 |
创建虚拟IP失败 |
Failed to create the virtual IP for the master |
重要 |
创建集群时检查创建虚拟IP是否成功。 |
删除节点虚拟机失败 |
Failed to delete the node VM |
重要 |
检查集群删除节点虚拟机是否成功。 |
删除节点安全组失败 |
Failed to delete the security group of node |
重要 |
检查集群删除节点安全组是否成功。 |
删除控制节点安全组失败 |
Failed to delete the security group of master |
重要 |
检查集群删除控制节点安全组是否成功。 |
删除控制节点网卡安全组失败 |
Failed to delete the security group of port |
重要 |
检查集群删除控制节点网卡安全组是否成功。 |
删除集群ENI/SubENI安全组失败 |
Failed to delete the security group of eni or subeni |
重要 |
检查集群删除ENI/SubENI安全组是否成功。 |
解绑控制节点网卡失败 |
Failed to detach the port of master |
重要 |
检查集群解绑控制节点网卡是否成功。 |
删除控制节点网卡失败 |
Failed to delete the port of master |
重要 |
检查集群删除控制节点网卡是否成功。 |
删除控制节点虚拟机失败 |
Failed to delete the master VM |
重要 |
检查集群删除控制节点虚拟机是否成功。 |
删除控制节点密钥对失败 |
Failed to delete the key pair of master |
重要 |
检查集群删除控制节点密钥对是否成功。 |
删除控制节点subnet失败 |
Failed to delete the subnet of master |
重要 |
检查集群删除控制节点subnet是否成功。 |
删除控制节点VPC失败 |
Failed to delete the VPC of master |
重要 |
检查集群删除控制节点VPC是否成功。 |
删除集群证书失败 |
Failed to delete certificate of cluster |
重要 |
检查集群删除集群证书是否成功。 |
删除控制节点云服务器组失败 |
Failed to delete the server group of master |
重要 |
检查集群删除控制节点云服务器组是否成功。 |
删除虚拟IP失败 |
Failed to delete the virtual IP for the master |
重要 |
检查集群删除虚拟IP是否成功。 |
获取控制节点浮动IP失败 |
Failed to get floating IP of the master |
重要 |
检查获取控制节点浮动IP是否成功。 |
获取集群规格信息失败 |
Failed to get cluster flavor |
重要 |
检查获取集群规格信息是否成功。 |
获取集群endpoint失败 |
Failed to get cluster endpoint |
重要 |
检查获取集群endpoint是否成功。 |
获取Kubernetes集群连接失败 |
Failed to get kubernetes connection |
重要 |
检查获取Kubernetes集群连接是否成功。 |
更新集群Secret失败 |
Failed to update secret |
重要 |
检查更新集群Secret是否成功。 |
处理用户操作超时 |
Operation timed out |
重要 |
检查处理用户操作是否超时。 |
连接Kubernetes集群超时 |
Connecting to Kubernetes cluster timed out |
重要 |
检查连接Kubernetes集群是否超时。 |
检查组件状态失败或组件状态异常 |
Failed to check component status or components are abnormal |
重要 |
检查集群检查组件状态是否成功,或组件状态是否异常。 |
无法在Kubernetes集群中找到该节点 |
The node is not found in kubernetes cluster |
重要 |
检查是否能在Kubernetes集群中找到该节点。 |
节点在Kubernetes集群中状态异常 |
The status of node is not ready in kubernetes cluster |
重要 |
检查节点在Kubernetes集群中状态是否正常。 |
无法在ECS服务中找到该节点对应的虚拟机 |
Can't find corresponding vm of this node in ECS |
重要 |
检查能否在ECS服务中找到该节点对应的虚拟机。 |
升级控制节点失败 |
Failed to upgrade the master |
重要 |
检查升级控制节点是否成功。 |
升级节点失败 |
Failed to upgrade the node |
重要 |
检查升级节点是否成功。 |
变更控制节点规格失败 |
Failed to change flavor of the master |
重要 |
检查变更控制节点规格是否成功。 |
变更控制节点规格超时 |
Change flavor of the master timeout |
重要 |
检查变更控制节点规格是否超时。 |
创建包周期节点校验不通过 |
Failed to pass verification while creating yearly/monthly subscription node |
重要 |
检查创建包周期节点校验是否成功。 |
安装节点失败 |
Failed to install the node |
重要 |
检查集群安装节点是否成功。 |
清理VPC中集群容器网络路由表条目失败 |
Failed to clean routes of cluster container network in VPC |
重要 |
检查清理VPC中集群容器网络路由表条目是否成功。 |
集群状态不可用 |
Cluster status is Unavailable |
重要 |
检查集群状态是否可用。 |
集群状态故障 |
Cluster status is Error |
重要 |
检查集群是否出现故障。 |
集群状态长时间不更新 |
Cluster status is not updated for a long time |
重要 |
检查集群状态是否长时间不更新。 |
集群升级超时后更新控制节点状态失败 |
Failed to update master status after upgrading cluster timeout |
重要 |
检查集群升级超时后更新控制节点状态是否成功。 |
集群升级超时后更新运行中的任务失败 |
Failed to update running jobs after upgrading cluster timeout |
重要 |
检查集群升级超时后更新运行中的任务是否成功。 |
更新集群状态失败 |
Failed to update cluster status |
重要 |
检查更新集群状态是否成功。 |
更新节点状态失败 |
Failed to update node status |
重要 |
检查更新节点状态是否成功。 |
纳管节点超时后移除数据库中的节点记录失败 |
Failed to remove the static node from database |
重要 |
检查纳管节点超时后移除数据库中的节点记录是否成功。 |
节点处理超时后更新节点状态为异常失败 |
Failed to update node status to abnormal after node processing timeout |
重要 |
检查节点处理超时后,是否更新节点状态为异常。 |
更新集群访问地址失败 |
Failed to update the cluster endpoint |
重要 |
检查更新集群访问地址是否成功。 |
删除不可用的Kubernetes连接失败 |
Failed to delete the unavailable connection of the Kubernetes cluster |
重要 |
检查删除不可用的Kubernetes连接是否成功。 |
同步集群证书失败 |
Failed to sync the cluster cert |
重要 |
检查同步集群证书是否成功。 |