更新时间:2024-09-29 GMT+08:00

CCE事件列表

在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。

集群数据面事件

表1 工作负载相关事件

类别

事件描述

事件名称

事件级别

更多说明

Pod

Pod内存不足OOM

PodOOMKilling

重要

检查Pod是否因OOM退出。

该事件依赖节点故障检测插件(1.18.41及以上版本)和云原生日志采集插件(1.3.2及以上版本)。

Pod

启动失败

FailedStart

重要

检查Pod是否启动成功。

Pod

拉取镜像失败

FailedPullImage

重要

检查Pod是否拉取镜像成功。

Pod

启动重试失败

BackOffStart

重要

检查Pod是否重启失败。

Pod

调度失败

FailedScheduling

重要

检查Pod是否调度成功。

Pod

拉取镜像重试失败

BackOffPullImage

重要

检查Pod重试拉取镜像是否成功。

Pod

创建失败

FailedCreate

重要

检查Pod创建是否成功。

Pod

状态异常

Unhealthy

次要

检查Pod健康检查是否成功。

Pod

删除失败

FailedDelete

次要

检查工作负载是否删除成功。

Pod

未拉取镜像异常

ErrImageNeverPull

次要

检查工作负载是否拉取镜像。

Pod

扩容失败

FailedScaleOut

次要

检查工作负载副本扩容是否正常。

Pod

待机失败

FailedStandBy

次要

检查Pod待机是否成功。

Pod

更新配置失败

FailedReconfig

次要

检查Pod更新配置是否成功。

Pod

激活失败

FailedActive

次要

检查Pod是否激活成功。

Pod

回滚失败

FailedRollback

次要

检查Pod回滚是否成功。

Pod

更新失败

FailedUpdate

次要

检查Pod更新是否成功。

Pod

缩容失败

FailedScaleIn

次要

检查Pod缩容是否失败。

Pod

重启失败

FailedRestart

次要

检查Pod重启是否成功。

Deployment

标签选择器冲突

SelectorOverlap

次要

检查集群中标签选择器是否存在冲突。

Deployment

副本集创建异常

ReplicaSetCreateError

次要

检查工作负载ReplicaSet创建副本是否正常。

Deployment

部署回滚版本未发现

DeploymentRollbackRevisionNotFound

次要

检查Deployment负载回滚版本是否存在。

DaemonSet

标签选择器异常

SelectingAll

次要

检查工作负载标签选择器是否设置异常。

Job

太多活跃Pod

TooManyActivePods

次要

检查Job达到预定的Pod数后,是否还存在活动状态的Pod。

Job

太多成功Pod

TooManySucceededPods

次要

检查Job达到预定的数量后,是否存在过多运行成功的Pod。

CronJob

查询失败

FailedGet

次要

查询CronJob是否成功。

CronJob

查询Pod列表失败

FailedList

次要

检查查询Pod列表是否成功。

CronJob

未知Job

UnexpectedJob

次要

检查CronJob是否出现未知的Job。

表2 网络相关事件

类别

事件描述

事件名称

事件级别

更多说明

Service

创建负载均衡失败

CreatingLoadBalancerFailed

次要

检查创建ELB是否成功。

Service

删除负载均衡失败

DeletingLoadBalancerFailed

次要

检查删除ELB是否成功。

Service

更新负载均衡失败

UpdateLoadBalancerFailed

次要

检查更新ELB是否成功。

表3 节点相关事件

类别

事件描述

事件名称

事件级别

更多说明

Node

节点重启

Rebooted

重要

检查节点是否重启。

Node

节点不可调度

NodeNotSchedulable

重要

检查节点是否可调度。

Node

节点状态异常

NodeNotReady

重要

检查节点状态是否异常。

Node

节点创建失败

NodeCreateFailed

重要

检查节点是否创建成功。

Node

节点kubelet故障

KUBELETIsDown

次要

检查节点kubelet是否正常。

Node

节点内存空间不足

NodeHasInsufficientMemory

次要

检查节点内存空间是否充足。

Node

节点上发现未注册的网络设备

UnregisterNetDevice

次要

检查节点上是否绑定了未注册的网络设备。

Node

网卡未发现

NetworkCardNotFound

次要

检查节点网卡状态。

Node

节点kube-proxy故障

KUBEPROXYIsDown

次要

检查节点上的kube-proxy是否正常。

Node

节点磁盘空间已满

NodeOutOfDisk

次要

检查节点磁盘空间是否正常。

Node

节点任务夯住

TaskHung

次要

检查节点上是否存在夯住的任务。

Node

CIDR不可用

CIDRNotAvailable

次要

检查节点CIDR是否可用。

Node

节点的连接跟踪表已满

ConntrackFull

次要

检查节点的连接跟踪表是否已满。

Node

节点磁盘空间不足

NodeHasDiskPressure

次要

检查节点磁盘空间是否充足。

Node

节点纳管失败

NodeInstallFailed

次要

检查集群纳管节点是否成功。

Node

节点操作系统内核故障

KernelOops

次要

检查节点操作系统内核是否故障。

Node

节点内存不足强杀进程

OOMKilling

次要

  • 节点上的Pod内存使用超过Limit值导致进程终止。
  • 节点上的Pod内存使用未超过Limit值,但节点可用内存不足出现OOM。

Node

节点docker故障

DOCKERIsDown

次要

检查节点容器引擎是否正常。

Node

CIDR分配失败

CIDRAssignmentFailed

次要

检查节点CIDR分配是否成功。

Node

节点docker夯住

DockerHung

次要

检查节点Docker进程是否夯住。

Node

节点文件系统只读

FilesystemIsReadOnly

次要

检查节点文件系统是否只读。

Node

节点ntp服务故障

NTPIsDown

次要

检查节点NTP服务是否正常。

Node

节点卸载失败

NodeUninstallFailed

次要

检查节点卸载是否成功。

Node

节点磁盘卸载夯住

AUFSUmountHung

次要

检查节点磁盘卸载是否夯住。

Node

节点cni插件故障

CNIIsDown

次要

检查节点CNI插件是否故障。

Namespace

废弃节点清理

DeleteNodeWithNoServer

次要

检查是否清理废弃节点。

表4 存储相关事件

类别

事件描述

事件名称

事件级别

更多说明

PV

主机卸载块存储失败

DetachVolumeFailed

次要

检查卸载块存储是否成功。

PV

卷回收策略未知

VolumeUnknownReclaimPolicy

次要

检查是否指定卷回收策略。

PV

挂载数据卷失败

SetUpAtVolumeFailed

次要

检查数据卷挂载是否成功。

PV

数据卷回收失败

VolumeFailedRecycle

次要

检查数据卷是否成功回收。

PV

等待主机挂载块存储失败

WaitForAttachVolumeFailed

次要

检查节点挂载块存储是否成功。

PV

数据卷删除失败

VolumeFailedDelete

次要

检查数据卷删除是否成功。

PV

挂载盘符失败

MountDeviceFailed

次要

检查数据卷挂盘是否成功。

PV

卸载数据卷失败

TearDownAtVolumeFailed

次要

检查数据卷卸载是否成功。

PV

卸载盘符失败

UnmountDeviceFailed

次要

检查数据卷卸载盘符是否成功。

PV

主机挂载块存储失败

AttachVolumeFailed

次要

检查节点卸载块存储是否成功。

PVC

数据卷扩容失败

VolumeResizeFailed

次要

检查数据卷扩容是否成功。

PVC

卷PVC丢失

ClaimLost

次要

检查PVC卷是否正常。

PVC

创建卷失败

ProvisioningFailed

次要

检查创建数据卷是否正常。

PVC

创建卷清理失败

ProvisioningCleanupFailed

次要

检查清理数据卷是否正常。

PVC

卷误绑定

ClaimMisbound

次要

检查PVC是否绑定错误的卷。

表5 弹性伸缩相关事件

类别

事件描述

事件名称

事件级别

更多说明

Autoscaler

扩容节点超时

ScaleUpTimedOut

重要

检查节点池扩容节点是否超时。

Autoscaler

节点池资源充足

NodePoolAvailable

重要

检查节点池资源是否充足。

Autoscaler

缩容节点

ScaleDown

重要

集群正在缩容节点。

Autoscaler

未触发节点扩容

NotTriggerScaleUp

重要

检查节点是否成功触发扩容。

Autoscaler

删除未注册节点成功

DeleteUnregistered

重要

检查删除未注册的节点是否成功。

Autoscaler

缩容空闲节点成功

ScaleDownEmpty

重要

检查缩容空闲节点是否成功。

Autoscaler

缩容节点失败

ScaleDownFailed

重要

检查缩容节点是否成功。

Autoscaler

节点池扩容节点失败

FailedToScaleUpGroup

重要

检查节点池扩容节点是否异常。

Autoscaler

节点池扩容节点成功

ScaledUpGroup

重要

检查节点池扩容是否成功。

Autoscaler

扩容节点失败

ScaleUpFailed

重要

检查节点扩容是否成功。

Autoscaler

修复节点池节点个数成功

FixNodeGroupSizeDone

重要

检查修复节点池节点个数是否成功。

Autoscaler

节点池退避重试中

NodeGroupInBackOff

重要

检查节点池扩缩容是否存在回退重试。

Autoscaler

修复节点池节点个数失败

FixNodeGroupSizeError

重要

检查修复节点池节点个数是否成功。

Autoscaler

节点池资源售罄

NodePoolSoldOut

重要

检查节点池资源是否充足。

Autoscaler

触发节点扩容

TriggeredScaleUp

重要

检查节点是否触发扩容。

Autoscaler

节点池扩容节点启动

StartScaledUpGroup

重要

检查节点池扩容是否启动。

Autoscaler

删除未注册节点失败

DeleteUnregisteredFailed

重要

检查删除未注册的节点是否成功。

HPA

HPA非法指标范围

InvalidTargetRange

重要

  • HPA的annotations中配置了非法的extendedhpa.metrics。
  • HPA的spec中metric type填写错误。

HPA

HPA获取伸缩对象失败

FailedGetScale

重要

HPA无法获取待伸缩的资源对象。

HPA

HPA计算资源扩缩副本数失败

FailedComputeMetricsReplicas

重要

一般是由于在计算需要为资源调整多少个副本数时出现了问题,例如metric-server不可用、资源指标采集失败、CPU利用率等设置不正确等。

可以通过以下命令查看详细的信息:

kubectl describe horizontalpodautoscaler <hpa-name>

HPA

HPA获取对象指标失败

FailedGetObjectMetric

重要

获取指定对象(PVC、ConfigMaps等)的指标失败。

HPA

HPA获取Pod资源指标失败

FailedGetPodsMetric

重要

获取Pod资源指标失败(单个Pod的资源利用率)。

HPA

HPA获取集群资源指标失败

FailedGetResourceMetric

重要

获取集群资源指标失败(整个集群的资源利用率)。

HPA

HPA获取容器资源指标失败

FailedGetContainerResourceMetric

重要

获取单个容器资源指标失败。

HPA

HPA获取外部指标失败

FailedGetExternalMetric

重要

获取外部指标失败。

HPA

HPA伸缩Pod失败

FailedRescale

重要

更新待伸缩资源对象的期望副本数失败。

HPA

Pod扩缩容成功

SuccessfulRescale

次要

更新待伸缩资源对象的期望副本数成功。

CronHPA

CronHPA伸缩失败

ScaleFailed

重要

CronHPA更新待伸缩资源对象的期望副本数失败。

CronHPA

CronHPA查询关联HPA失败

FailedGetHorizontalPodAutoscaler

重要

CronHPA查询关联的HPA对象失败(通常是kube-apiserver侧响应失败)。

CronHPA

CronHPA查询伸缩对象失败

FailedGetHpaScale

重要

CronHPA获取待伸缩资源对象失败。

CronHPA

CronHPA更新关联HPA失败

UpdateHPAFailed

重要

CronHPA更新关联的HPA对象失败。

CronHPA

更新HPA策略成功

UpdateHPASuccess

次要

CronHPA更新关联的HPA对象成功。

CronHPA

跳过更新HPA策略

SkipUpdateHPA

次要

CronHPA跳过更新关联的HPA对象。

CronHPA

跳过更新工作负载实例数

SkipUpdateTarget

次要

CronHPA跳过更新待伸缩资源对象的副本数。

CronHPA

更新工作负载实例数成功

UpdateTargetSuccess

次要

CronHPA更新待伸缩资源对象的副本数成功。

CustomedHPA

CustomedHPA解析冷却时间失败

FailedSetPolicySettings

重要

解析CustomedHPA的冷却时间失败。

CustomedHPA

CustomedHPA处理定时/指标规则失败

FailedSubmitRule

重要

CustomedHPA处理定时规则或指标规则失败。

CustomedHPA

CustomedHPA计算资源扩缩副本数失败

FailedComputeReplicas

重要

CustomedHPA计算指标触发资源扩缩容失败。

CustomedHPA

CustomedHPA伸缩Pod失败

FailedScale

重要

CustomedHPA更新待伸缩资源对象的期望副本数失败(通常是kube-apiserver侧响应失败)。

CustomedHPA

CustomedHPA指标扩缩容成功

MetricScaleSuccess

次要

CustomedHPA根据指标规则触发资源扩缩容成功。

CustomedHPA

CustomedHPA周期扩缩容成功

CronScaleSuccess

次要

CustomedHPA根据周期规则触发资源扩缩容成功。

集群控制面事件

表6 集群控制面事件

事件名称

事件ID

事件级别

事件说明

内部故障

Internal error

重要

检查集群是否出现内部故障。

外部依赖异常

External dependency error

重要

检查集群是否存在外部依赖异常。

初始化执行线程失败

Failed to initialize process thread

重要

检查集群初始化执行线程是否成功。

更新数据库失败

Failed to update database

重要

检查集群更新数据库是否成功。

节点池触发创建节点失败

Failed to create node by nodepool

重要

检查节点池中创建节点是否成功。

节点池触发删除节点失败

Failed to delete node by nodepool

重要

检查节点池中删除节点是否成功。

创建包周期节点失败

Failed to create yearly/monthly subscription node

重要

检查集群创建包周期的节点是否成功。

解除资源租户访问控制节点镜像的授权失败

Failed to cancel the authorization of accessing the image of the master.

重要

创建集群时,检查解除资源租户访问控制节点镜像的授权是否成功。

创建虚拟IP失败

Failed to create the virtual IP for the master

重要

创建集群时检查创建虚拟IP是否成功。

删除节点虚拟机失败

Failed to delete the node VM

重要

检查集群删除节点虚拟机是否成功。

删除节点安全组失败

Failed to delete the security group of node

重要

检查集群删除节点安全组是否成功。

删除控制节点安全组失败

Failed to delete the security group of master

重要

检查集群删除控制节点安全组是否成功。

删除控制节点网卡安全组失败

Failed to delete the security group of port

重要

检查集群删除控制节点网卡安全组是否成功。

删除集群ENI/SubENI安全组失败

Failed to delete the security group of eni or subeni

重要

检查集群删除ENI/SubENI安全组是否成功。

解绑控制节点网卡失败

Failed to detach the port of master

重要

检查集群解绑控制节点网卡是否成功。

删除控制节点网卡失败

Failed to delete the port of master

重要

检查集群删除控制节点网卡是否成功。

删除控制节点虚拟机失败

Failed to delete the master VM

重要

检查集群删除控制节点虚拟机是否成功。

删除控制节点密钥对失败

Failed to delete the key pair of master

重要

检查集群删除控制节点密钥对是否成功。

删除控制节点subnet失败

Failed to delete the subnet of master

重要

检查集群删除控制节点subnet是否成功。

删除控制节点VPC失败

Failed to delete the VPC of master

重要

检查集群删除控制节点VPC是否成功。

删除集群证书失败

Failed to delete certificate of cluster

重要

检查集群删除集群证书是否成功。

删除控制节点云服务器组失败

Failed to delete the server group of master

重要

检查集群删除控制节点云服务器组是否成功。

删除虚拟IP失败

Failed to delete the virtual IP for the master

重要

检查集群删除虚拟IP是否成功。

获取控制节点浮动IP失败

Failed to get floating IP of the master

重要

检查获取控制节点浮动IP是否成功。

获取集群规格信息失败

Failed to get cluster flavor

重要

检查获取集群规格信息是否成功。

获取集群endpoint失败

Failed to get cluster endpoint

重要

检查获取集群endpoint是否成功。

获取Kubernetes集群连接失败

Failed to get kubernetes connection

重要

检查获取Kubernetes集群连接是否成功。

更新集群Secret失败

Failed to update secret

重要

检查更新集群Secret是否成功。

处理用户操作超时

Operation timed out

重要

检查处理用户操作是否超时。

连接Kubernetes集群超时

Connecting to Kubernetes cluster timed out

重要

检查连接Kubernetes集群是否超时。

检查组件状态失败或组件状态异常

Failed to check component status or components are abnormal

重要

检查集群检查组件状态是否成功,或组件状态是否异常。

无法在Kubernetes集群中找到该节点

The node is not found in kubernetes cluster

重要

检查是否能在Kubernetes集群中找到该节点。

节点在Kubernetes集群中状态异常

The status of node is not ready in kubernetes cluster

重要

检查节点在Kubernetes集群中状态是否正常。

无法在ECS服务中找到该节点对应的虚拟机

Can't find corresponding vm of this node in ECS

重要

检查能否在ECS服务中找到该节点对应的虚拟机。

升级控制节点失败

Failed to upgrade the master

重要

检查升级控制节点是否成功。

升级节点失败

Failed to upgrade the node

重要

检查升级节点是否成功。

变更控制节点规格失败

Failed to change flavor of the master

重要

检查变更控制节点规格是否成功。

变更控制节点规格超时

Change flavor of the master timeout

重要

检查变更控制节点规格是否超时。

创建包周期节点校验不通过

Failed to pass verification while creating yearly/monthly subscription node

重要

检查创建包周期节点校验是否成功。

安装节点失败

Failed to install the node

重要

检查集群安装节点是否成功。

清理VPC中集群容器网络路由表条目失败

Failed to clean routes of cluster container network in VPC

重要

检查清理VPC中集群容器网络路由表条目是否成功。

集群状态不可用

Cluster status is Unavailable

重要

检查集群状态是否可用。

集群状态故障

Cluster status is Error

重要

检查集群是否出现故障。

集群状态长时间不更新

Cluster status is not updated for a long time

重要

检查集群状态是否长时间不更新。

集群升级超时后更新控制节点状态失败

Failed to update master status after upgrading cluster timeout

重要

检查集群升级超时后更新控制节点状态是否成功。

集群升级超时后更新运行中的任务失败

Failed to update running jobs after upgrading cluster timeout

重要

检查集群升级超时后更新运行中的任务是否成功。

更新集群状态失败

Failed to update cluster status

重要

检查更新集群状态是否成功。

更新节点状态失败

Failed to update node status

重要

检查更新节点状态是否成功。

纳管节点超时后移除数据库中的节点记录失败

Failed to remove the static node from database

重要

检查纳管节点超时后移除数据库中的节点记录是否成功。

节点处理超时后更新节点状态为异常失败

Failed to update node status to abnormal after node processing timeout

重要

检查节点处理超时后,是否更新节点状态为异常。

更新集群访问地址失败

Failed to update the cluster endpoint

重要

检查更新集群访问地址是否成功。

删除不可用的Kubernetes连接失败

Failed to delete the unavailable connection of the Kubernetes cluster

重要

检查删除不可用的Kubernetes连接是否成功。

同步集群证书失败

Failed to sync the cluster cert

重要

检查同步集群证书是否成功。