更新时间:2024-12-26 GMT+08:00
分享

CCE Autopilot集群事件列表

在集群运行过程中,CCE Autopilot集群会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。

集群数据面事件

表1 工作负载相关事件

类别

事件描述

事件名称

事件级别

更多说明

Pod

Pod内存不足OOM

PodOOMKilling

重要

检查Pod是否因OOM退出。

该事件依赖节点故障检测插件(1.18.41及以上版本)和云原生日志采集插件(1.3.2及以上版本)。

Pod

启动失败

FailedStart

重要

检查Pod是否启动成功。

Pod

拉取镜像失败

FailedPullImage

重要

检查Pod是否拉取镜像成功。

Pod

启动重试失败

BackOffStart

重要

检查Pod是否重启失败。

Pod

调度失败

FailedScheduling

重要

检查Pod是否调度成功。

Pod

拉取镜像重试失败

BackOffPullImage

重要

检查Pod重试拉取镜像是否成功。

Pod

创建失败

FailedCreate

重要

检查Pod创建是否成功。

Pod

状态异常

Unhealthy

次要

检查Pod健康检查是否成功。

Pod

删除失败

FailedDelete

次要

检查工作负载是否删除成功。

Pod

未拉取镜像异常

ErrImageNeverPull

次要

检查工作负载是否拉取镜像。

Pod

扩容失败

FailedScaleOut

次要

检查工作负载副本扩容是否正常。

Pod

更新配置失败

FailedReconfig

次要

检查Pod更新配置是否成功。

Pod

激活失败

FailedActive

次要

检查Pod是否激活成功。

Pod

回滚失败

FailedRollback

次要

检查Pod回滚是否成功。

Pod

更新失败

FailedUpdate

次要

检查Pod更新是否成功。

Pod

缩容失败

FailedScaleIn

次要

检查Pod缩容是否失败。

Pod

重启失败

FailedRestart

次要

检查Pod重启是否成功。

Deployment

标签选择器冲突

SelectorOverlap

次要

检查集群中标签选择器是否存在冲突。

Deployment

副本集创建异常

ReplicaSetCreateError

次要

检查工作负载ReplicaSet创建副本是否正常。

Deployment

部署回滚版本未发现

DeploymentRollbackRevisionNotFound

次要

检查Deployment负载回滚版本是否存在。

Job

太多活跃Pod

TooManyActivePods

次要

检查Job达到预定的Pod数后,是否还存在活动状态的Pod。

Job

太多成功Pod

TooManySucceededPods

次要

检查Job达到预定的数量后,是否存在过多运行成功的Pod。

CronJob

查询失败

FailedGet

次要

查询CronJob是否成功。

CronJob

查询Pod列表失败

FailedList

次要

检查查询Pod列表是否成功。

CronJob

未知Job

UnexpectedJob

次要

检查CronJob是否出现未知的Job。

表2 网络相关事件

类别

事件描述

事件名称

事件级别

更多说明

Service

创建负载均衡失败

CreatingLoadBalancerFailed

次要

检查创建ELB是否成功。

Service

删除负载均衡失败

DeletingLoadBalancerFailed

次要

检查删除ELB是否成功。

Service

更新负载均衡失败

UpdateLoadBalancerFailed

次要

检查更新ELB是否成功。

表3 存储相关事件

类别

事件描述

事件名称

事件级别

更多说明

PV

主机卸载块存储失败

DetachVolumeFailed

次要

检查卸载块存储是否成功。

PV

卷回收策略未知

VolumeUnknownReclaimPolicy

次要

检查是否指定卷回收策略。

PV

挂载数据卷失败

SetUpAtVolumeFailed

次要

检查数据卷挂载是否成功。

PV

数据卷回收失败

VolumeFailedRecycle

次要

检查数据卷是否成功回收。

PV

等待主机挂载块存储失败

WaitForAttachVolumeFailed

次要

检查节点挂载块存储是否成功。

PV

数据卷删除失败

VolumeFailedDelete

次要

检查数据卷删除是否成功。

PV

挂载盘符失败

MountDeviceFailed

次要

检查数据卷挂盘是否成功。

PV

卸载数据卷失败

TearDownAtVolumeFailed

次要

检查数据卷卸载是否成功。

PV

卸载盘符失败

UnmountDeviceFailed

次要

检查数据卷卸载盘符是否成功。

PV

主机挂载块存储失败

AttachVolumeFailed

次要

检查节点卸载块存储是否成功。

PVC

数据卷扩容失败

VolumeResizeFailed

次要

检查数据卷扩容是否成功。

PVC

卷PVC丢失

ClaimLost

次要

检查PVC卷是否正常。

PVC

创建卷失败

ProvisioningFailed

次要

检查创建数据卷是否正常。

PVC

创建卷清理失败

ProvisioningCleanupFailed

次要

检查清理数据卷是否正常。

PVC

卷误绑定

ClaimMisbound

次要

检查PVC是否绑定错误的卷。

表4 弹性伸缩相关事件

类别

事件描述

事件名称

事件级别

更多说明

HPA

HPA非法指标范围

InvalidTargetRange

重要

  • HPA的annotations中配置了非法的extendedhpa.metrics。
  • HPA的spec中metric type填写错误。

HPA

HPA获取伸缩对象失败

FailedGetScale

重要

HPA无法获取待伸缩的资源对象。

HPA

HPA计算资源扩缩副本数失败

FailedComputeMetricsReplicas

重要

一般是由于在计算需要为资源调整多少个副本数时出现了问题,例如metric-server不可用、资源指标采集失败、CPU利用率等设置不正确等。

可以通过以下命令查看详细的信息:

kubectl describe horizontalpodautoscaler <hpa-name>

HPA

HPA获取对象指标失败

FailedGetObjectMetric

重要

获取指定对象(PVC、ConfigMaps等)的指标失败。

HPA

HPA获取Pod资源指标失败

FailedGetPodsMetric

重要

获取Pod资源指标失败(单个Pod的资源利用率)。

HPA

HPA获取集群资源指标失败

FailedGetResourceMetric

重要

获取集群资源指标失败(整个集群的资源利用率)。

HPA

HPA获取容器资源指标失败

FailedGetContainerResourceMetric

重要

获取单个容器资源指标失败。

HPA

HPA获取外部指标失败

FailedGetExternalMetric

重要

获取外部指标失败。

HPA

HPA伸缩Pod失败

FailedRescale

重要

更新待伸缩资源对象的期望副本数失败。

HPA

Pod扩缩容成功

SuccessfulRescale

次要

更新待伸缩资源对象的期望副本数成功。

CronHPA

CronHPA伸缩失败

ScaleFailed

重要

CronHPA更新待伸缩资源对象的期望副本数失败。

CronHPA

CronHPA查询关联HPA失败

FailedGetHorizontalPodAutoscaler

重要

CronHPA查询关联的HPA对象失败(通常是kube-apiserver侧响应失败)。

CronHPA

CronHPA查询伸缩对象失败

FailedGetHpaScale

重要

CronHPA获取待伸缩资源对象失败。

CronHPA

CronHPA更新关联HPA失败

UpdateHPAFailed

重要

CronHPA更新关联的HPA对象失败。

CronHPA

更新HPA策略成功

UpdateHPASuccess

次要

CronHPA更新关联的HPA对象成功。

CronHPA

跳过更新HPA策略

SkipUpdateHPA

次要

CronHPA跳过更新关联的HPA对象。

CronHPA

跳过更新工作负载实例数

SkipUpdateTarget

次要

CronHPA跳过更新待伸缩资源对象的副本数。

CronHPA

更新工作负载实例数成功

UpdateTargetSuccess

次要

CronHPA更新待伸缩资源对象的副本数成功。

CustomedHPA

CustomedHPA解析冷却时间失败

FailedSetPolicySettings

重要

解析CustomedHPA的冷却时间失败。

CustomedHPA

CustomedHPA处理定时/指标规则失败

FailedSubmitRule

重要

CustomedHPA处理定时规则或指标规则失败。

CustomedHPA

CustomedHPA计算资源扩缩副本数失败

FailedComputeReplicas

重要

CustomedHPA计算指标触发资源扩缩容失败。

CustomedHPA

CustomedHPA伸缩Pod失败

FailedScale

重要

CustomedHPA更新待伸缩资源对象的期望副本数失败(通常是kube-apiserver侧响应失败)。

CustomedHPA

CustomedHPA指标扩缩容成功

MetricScaleSuccess

次要

CustomedHPA根据指标规则触发资源扩缩容成功。

CustomedHPA

CustomedHPA周期扩缩容成功

CronScaleSuccess

次要

CustomedHPA根据周期规则触发资源扩缩容成功。

集群控制面事件

表5 集群控制面事件

事件名称

事件ID

事件级别

事件说明

内部故障

Internal error

重要

检查集群是否出现内部故障。

检查组件状态失败或组件状态异常

Failed to check component status or components are abnormal

重要

检查集群检查组件状态是否成功,或组件状态是否异常。

集群状态不可用

Cluster status is Unavailable

重要

检查集群状态是否可用。

集群状态故障

Cluster status is Error

重要

检查集群是否出现故障。

集群状态长时间不更新

Cluster status is not updated for a long time

重要

检查集群状态是否长时间不更新。

更新集群状态失败

Failed to update cluster status

重要

检查更新集群状态是否成功。

删除不可用的Kubernetes连接失败

Failed to delete the unavailable connection of the Kubernetes cluster

重要

检查删除不可用的Kubernetes连接是否成功。

同步集群证书失败

Failed to sync the cluster cert

重要

检查同步集群证书是否成功。

相关文档