更新时间:2025-07-07 GMT+08:00

调度配置

为您提供kube-scheduler基础配置信息,并提供Volcano作为容器调度器的高级调度能力配置,您可以在此开启装箱策略、基于优先级的调度与抢占、AI任务性能增强、异构资源管理等高级调度能力,提升集群资源利用率,为您节约成本。

Kube-scheduler 调度器

kube-scheduler 提供社区原生调度器标准调度能力。

启用volcano增强能力:需安装Volcano 调度器插件。开启后为您提供资源利用率优化、AI任务性能增强、异构资源管理等高级调度能力,提升集群资源利用率,节约使用成本。

Volcano调度器增强配置:

调度器性能配置

仅kube-scheduler调度器支持该配置。

表1 调度器性能配置参数说明

名称

参数

说明

取值

调度器访问kube-apiserver的QPS

kube-api-qps

与kube-apiserver通信的QPS,即每秒查询率。

  • 集群规格为1000节点以下时,默认值100
  • 集群规格为1000节点及以上时,默认值200

调度器访问kube-apiserver的突发流量上限

kube-api-burst

与kube-apiserver通信的突发流量上限。

  • 集群规格为1000节点以下时,默认值100
  • 集群规格为1000节点及以上时,默认值200

业务优先级保障调度

基于优先级调度

基础调度能力,不支持关闭,调度器会优先保障高优先级业务运行,但不会主动驱逐已运行的低优先级业务。详情请参见优先级调度

资源利用率优化调度(Volcano调度器支持)

装箱策略(Binpack)

启用该能力后,调度器优先选择具有最多请求资源的节点,减少各节点资源碎片,提高集群整体资源利用率。详情请参见装箱调度(Binpack)

装箱策略整体权重和内部各资源维度的打分权重设置如表2
表2 装箱策略权重配置

名称

说明

默认值

装箱调度策略权重

增大该权重值,可提高装箱策略在整体调度中的影响力。

10

CPU权重

增大该权重值,优先提高集群CPU利用率。

1

内存权重

增大该权重值,优先提高集群Memory利用率。

1

自定义资源类型

指定Pod请求的其他自定义资源类型,例如nvidia.com/gpu。增大该权重值,优先提高指定资源的利用率。

-

负载感知调度(Usage)

负载感知调度通过云原生监控插件(kube-prometheus-stack)获取各节点 CPU、内存的真实负载数据,根据用户指定的周期计算各节点的负载平均值,优先调度任务至真实负载较低的节点,实现节点负载均衡。详情请参见负载感知调度

AI任务性能增强调度(Volcano调度器支持)

公平调度(DRF)

DRF(Dominant Resource Fairness)是主资源公平调度策略,可以支持多种类型资源的公平分配,应用于大批量提交AI训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。

启用公平调度(DRF)后,可增强集群业务的吞吐量,提高业务运行性能。详情请参见公平调度(DRF)

组调度(Gang)

Gang调度策略满足了调度过程中的“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,应用于AI、大数据等多任务协作场景。

启用组调度(Gang)后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。详情请参见组调度(Gang)

异构资源调度(Volcano调度器支持)

支持GPU资源调度

使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。启用该能力后,可使用GPU资源运行AI训练作业,调度器提供GPU整卡调度和GPU共享调度能力,提高GPU资源利用率。