节点池自动扩缩容失效问题排查
问题现象
集群存在多个不可用节点,CCE集群弹性引擎插件自动扩缩容失效,影响新容器调度。
在集群K8s事件中,cluster-autoscaler-status的ConfigMap将会出现ClusterUnhealthy事件。

问题根因
当不可用节点数量超过ok-total-unready-count(默认值:3),并且占比超过max-total-unready-percentage(默认值:45,单位:%)时,CCE集群弹性引擎将停止操作。
|
参数 |
说明 |
默认值 |
|---|---|---|
|
max-total-unready-percentage |
集群中未就绪节点的最大百分比。超过此值后,CCE集群弹性引擎将停止操作。 |
45 |
|
ok-total-unready-count |
允许的未就绪节点数,与最大未就绪百分比无关。 |
3 |
- 示例1:不可用节点数为4,节点总数为6,则不可用节点占比为66.67%
不可用节点数量超过ok-total-unready-count(3个),并且占比超过max-total-unready-percentage(45%),CCE集群弹性引擎停止扩缩容。
- 示例2:不可用节点数为3,节点总数为5,则不可用节点占比为60%
不可用节点数量小于等于ok-total-unready-count(3个)并且占比超过max-total-unready-percentage(45%),集群满足扩容条件时,CCE集群弹性引擎扩容节点数2,总节点数为7。
问题排查
- 登录CCE控制台。
- 查看集群的可用节点与节点总数。

- 单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE集群弹性引擎插件。
- 单击“插件详情”并切换至“实例列表”,选择实例单击“更多 > 查看YAML”。
- 确认spec.containers.command参数配置,若未配置ok-total-unready-count和max-total-unready-percentage,则表示取默认值。
