节点生命周期控制器(node-lifecycle-controller)配置
可用区亚健康阈值
当给定区域中处于非就绪状态的节点的占比高于此值时, 会将该区域视为不健康
参数名 |
取值范围 |
默认值 |
是否允许修改 |
作用范围 |
---|---|---|---|---|
unhealthy-zone-threshold |
大于0小于1 |
0.55 |
允许 |
CCE Standard/CCE Turbo |
当可用区故障节点规模达到指定比例时被认定为不健康,针对不健康的区域,故障节点业务的迁移频率会降级,避免规模故障场景下大规模迁移操作产生更坏的影响
配置建议:
无特殊需求建议保持默认配置
比例配置过大可能导致区域在规模故障场景下仍尝试执行大规模迁移动作,导致集群过载等风险
节点迁移速率
当某区域健康时,在节点故障的情况下每秒删除 Pods 的节点数比例
参数名 |
取值范围 |
默认值 |
是否允许修改 |
作用范围 |
---|---|---|---|---|
node-eviction-rate |
大于0小于1 |
0.1 |
允许 |
CCE Standard/CCE Turbo |
当某区域健康时,在节点故障的情况下每秒删除 Pods 的比例
配置建议:
结合集群规模合理设置,建议按比例折算后每批迁移pod数量不超过300
迁移速率设置过大可能引入集群过载风险,同时每批迁移重调度的pod过多,大量pod无法及时调度,影响整体故障恢复时间
次级节点迁移速率
当一个区域不健康造成节点失效时,每秒钟从此标志所给的节点上删除 Pod 的节点数比例
参数名 |
取值范围 |
默认值 |
是否允许修改 |
作用范围 |
---|---|---|---|---|
secondary-node-eviction-rate |
大于0小于1 |
0.01 |
允许 |
CCE Standard/CCE Turbo |
当一个区域不健康造成节点失效时,每秒钟从此标志所给的节点上删除 Pod 的节点数比例,小规模集群场景(可用区节点数在50及以下该值会被隐式重设为 0)
配置建议:
配合node-eviction-rate设置,一般建议设置为node-eviction-rate的十分之一
区域亚健康场景迁移速率设置过大无实际意义,且可能引入集群过载风险