CCE Autopilot集群事件列表
在集群运行过程中,CCE Autopilot集群会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。
集群数据面事件
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
Pod |
Pod内存不足OOM |
PodOOMKilling |
重要 |
检查Pod是否因OOM退出。 该事件依赖节点故障检测插件(1.18.41及以上版本)和云原生日志采集插件(1.3.2及以上版本)。 |
Pod |
启动失败 |
FailedStart |
重要 |
检查Pod是否启动成功。 |
Pod |
拉取镜像失败 |
FailedPullImage |
重要 |
检查Pod是否拉取镜像成功。 |
Pod |
启动重试失败 |
BackOffStart |
重要 |
检查Pod是否重启失败。 |
Pod |
调度失败 |
FailedScheduling |
重要 |
检查Pod是否调度成功。 |
Pod |
拉取镜像重试失败 |
BackOffPullImage |
重要 |
检查Pod重试拉取镜像是否成功。 |
Pod |
创建失败 |
FailedCreate |
重要 |
检查Pod创建是否成功。 |
Pod |
状态异常 |
Unhealthy |
次要 |
检查Pod健康检查是否成功。 |
Pod |
删除失败 |
FailedDelete |
次要 |
检查工作负载是否删除成功。 |
Pod |
未拉取镜像异常 |
ErrImageNeverPull |
次要 |
检查工作负载是否拉取镜像。 |
Pod |
扩容失败 |
FailedScaleOut |
次要 |
检查工作负载副本扩容是否正常。 |
Pod |
更新配置失败 |
FailedReconfig |
次要 |
检查Pod更新配置是否成功。 |
Pod |
激活失败 |
FailedActive |
次要 |
检查Pod是否激活成功。 |
Pod |
回滚失败 |
FailedRollback |
次要 |
检查Pod回滚是否成功。 |
Pod |
更新失败 |
FailedUpdate |
次要 |
检查Pod更新是否成功。 |
Pod |
缩容失败 |
FailedScaleIn |
次要 |
检查Pod缩容是否失败。 |
Pod |
重启失败 |
FailedRestart |
次要 |
检查Pod重启是否成功。 |
Deployment |
标签选择器冲突 |
SelectorOverlap |
次要 |
检查集群中标签选择器是否存在冲突。 |
Deployment |
副本集创建异常 |
ReplicaSetCreateError |
次要 |
检查工作负载ReplicaSet创建副本是否正常。 |
Deployment |
部署回滚版本未发现 |
DeploymentRollbackRevisionNotFound |
次要 |
检查Deployment负载回滚版本是否存在。 |
Job |
太多活跃Pod |
TooManyActivePods |
次要 |
检查Job达到预定的Pod数后,是否还存在活动状态的Pod。 |
Job |
太多成功Pod |
TooManySucceededPods |
次要 |
检查Job达到预定的数量后,是否存在过多运行成功的Pod。 |
CronJob |
查询失败 |
FailedGet |
次要 |
查询CronJob是否成功。 |
CronJob |
查询Pod列表失败 |
FailedList |
次要 |
检查查询Pod列表是否成功。 |
CronJob |
未知Job |
UnexpectedJob |
次要 |
检查CronJob是否出现未知的Job。 |
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
Service |
创建负载均衡失败 |
CreatingLoadBalancerFailed |
次要 |
检查创建ELB是否成功。 |
Service |
删除负载均衡失败 |
DeletingLoadBalancerFailed |
次要 |
检查删除ELB是否成功。 |
Service |
更新负载均衡失败 |
UpdateLoadBalancerFailed |
次要 |
检查更新ELB是否成功。 |
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
PV |
主机卸载块存储失败 |
DetachVolumeFailed |
次要 |
检查卸载块存储是否成功。 |
PV |
卷回收策略未知 |
VolumeUnknownReclaimPolicy |
次要 |
检查是否指定卷回收策略。 |
PV |
挂载数据卷失败 |
SetUpAtVolumeFailed |
次要 |
检查数据卷挂载是否成功。 |
PV |
数据卷回收失败 |
VolumeFailedRecycle |
次要 |
检查数据卷是否成功回收。 |
PV |
等待主机挂载块存储失败 |
WaitForAttachVolumeFailed |
次要 |
检查节点挂载块存储是否成功。 |
PV |
数据卷删除失败 |
VolumeFailedDelete |
次要 |
检查数据卷删除是否成功。 |
PV |
挂载盘符失败 |
MountDeviceFailed |
次要 |
检查数据卷挂盘是否成功。 |
PV |
卸载数据卷失败 |
TearDownAtVolumeFailed |
次要 |
检查数据卷卸载是否成功。 |
PV |
卸载盘符失败 |
UnmountDeviceFailed |
次要 |
检查数据卷卸载盘符是否成功。 |
PV |
主机挂载块存储失败 |
AttachVolumeFailed |
次要 |
检查节点卸载块存储是否成功。 |
PVC |
数据卷扩容失败 |
VolumeResizeFailed |
次要 |
检查数据卷扩容是否成功。 |
PVC |
卷PVC丢失 |
ClaimLost |
次要 |
检查PVC卷是否正常。 |
PVC |
创建卷失败 |
ProvisioningFailed |
次要 |
检查创建数据卷是否正常。 |
PVC |
创建卷清理失败 |
ProvisioningCleanupFailed |
次要 |
检查清理数据卷是否正常。 |
PVC |
卷误绑定 |
ClaimMisbound |
次要 |
检查PVC是否绑定错误的卷。 |
类别 |
事件描述 |
事件名称 |
事件级别 |
更多说明 |
---|---|---|---|---|
HPA |
HPA非法指标范围 |
InvalidTargetRange |
重要 |
|
HPA |
HPA获取伸缩对象失败 |
FailedGetScale |
重要 |
HPA无法获取待伸缩的资源对象。 |
HPA |
HPA计算资源扩缩副本数失败 |
FailedComputeMetricsReplicas |
重要 |
一般是由于在计算需要为资源调整多少个副本数时出现了问题,例如metric-server不可用、资源指标采集失败、CPU利用率等设置不正确等。 可以通过以下命令查看详细的信息: kubectl describe horizontalpodautoscaler <hpa-name> |
HPA |
HPA获取对象指标失败 |
FailedGetObjectMetric |
重要 |
获取指定对象(PVC、ConfigMaps等)的指标失败。 |
HPA |
HPA获取Pod资源指标失败 |
FailedGetPodsMetric |
重要 |
获取Pod资源指标失败(单个Pod的资源利用率)。 |
HPA |
HPA获取集群资源指标失败 |
FailedGetResourceMetric |
重要 |
获取集群资源指标失败(整个集群的资源利用率)。 |
HPA |
HPA获取容器资源指标失败 |
FailedGetContainerResourceMetric |
重要 |
获取单个容器资源指标失败。 |
HPA |
HPA获取外部指标失败 |
FailedGetExternalMetric |
重要 |
获取外部指标失败。 |
HPA |
HPA伸缩Pod失败 |
FailedRescale |
重要 |
更新待伸缩资源对象的期望副本数失败。 |
HPA |
Pod扩缩容成功 |
SuccessfulRescale |
次要 |
更新待伸缩资源对象的期望副本数成功。 |
CronHPA |
CronHPA伸缩失败 |
ScaleFailed |
重要 |
CronHPA更新待伸缩资源对象的期望副本数失败。 |
CronHPA |
CronHPA查询关联HPA失败 |
FailedGetHorizontalPodAutoscaler |
重要 |
CronHPA查询关联的HPA对象失败(通常是kube-apiserver侧响应失败)。 |
CronHPA |
CronHPA查询伸缩对象失败 |
FailedGetHpaScale |
重要 |
CronHPA获取待伸缩资源对象失败。 |
CronHPA |
CronHPA更新关联HPA失败 |
UpdateHPAFailed |
重要 |
CronHPA更新关联的HPA对象失败。 |
CronHPA |
更新HPA策略成功 |
UpdateHPASuccess |
次要 |
CronHPA更新关联的HPA对象成功。 |
CronHPA |
跳过更新HPA策略 |
SkipUpdateHPA |
次要 |
CronHPA跳过更新关联的HPA对象。 |
CronHPA |
跳过更新工作负载实例数 |
SkipUpdateTarget |
次要 |
CronHPA跳过更新待伸缩资源对象的副本数。 |
CronHPA |
更新工作负载实例数成功 |
UpdateTargetSuccess |
次要 |
CronHPA更新待伸缩资源对象的副本数成功。 |
CustomedHPA |
CustomedHPA解析冷却时间失败 |
FailedSetPolicySettings |
重要 |
解析CustomedHPA的冷却时间失败。 |
CustomedHPA |
CustomedHPA处理定时/指标规则失败 |
FailedSubmitRule |
重要 |
CustomedHPA处理定时规则或指标规则失败。 |
CustomedHPA |
CustomedHPA计算资源扩缩副本数失败 |
FailedComputeReplicas |
重要 |
CustomedHPA计算指标触发资源扩缩容失败。 |
CustomedHPA |
CustomedHPA伸缩Pod失败 |
FailedScale |
重要 |
CustomedHPA更新待伸缩资源对象的期望副本数失败(通常是kube-apiserver侧响应失败)。 |
CustomedHPA |
CustomedHPA指标扩缩容成功 |
MetricScaleSuccess |
次要 |
CustomedHPA根据指标规则触发资源扩缩容成功。 |
CustomedHPA |
CustomedHPA周期扩缩容成功 |
CronScaleSuccess |
次要 |
CustomedHPA根据周期规则触发资源扩缩容成功。 |
集群控制面事件
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|
内部故障 |
Internal error |
重要 |
检查集群是否出现内部故障。 |
检查组件状态失败或组件状态异常 |
Failed to check component status or components are abnormal |
重要 |
检查集群检查组件状态是否成功,或组件状态是否异常。 |
集群状态不可用 |
Cluster status is Unavailable |
重要 |
检查集群状态是否可用。 |
集群状态故障 |
Cluster status is Error |
重要 |
检查集群是否出现故障。 |
集群状态长时间不更新 |
Cluster status is not updated for a long time |
重要 |
检查集群状态是否长时间不更新。 |
更新集群状态失败 |
Failed to update cluster status |
重要 |
检查更新集群状态是否成功。 |
删除不可用的Kubernetes连接失败 |
Failed to delete the unavailable connection of the Kubernetes cluster |
重要 |
检查删除不可用的Kubernetes连接是否成功。 |
同步集群证书失败 |
Failed to sync the cluster cert |
重要 |
检查同步集群证书是否成功。 |