更新时间:2024-11-27 GMT+08:00
分享

Volcano调度器版本发布记录

表1 Volcano调度器版本记录

插件版本

支持的集群版本

更新特性

1.15.8

v1.23

v1.25

v1.27

v1.28

v1.29

v1.30

支持NPU双DIE亲和调度能力

1.15.6

v1.23

v1.25

v1.27

v1.28

v1.29

v1.30

新增基于应用资源画像的超卖能力

1.14.11

v1.23

v1.25

v1.27

v1.28

v1.29

v1.30

  • 新增支持超节点资源调度模型(HyperJob)
  • 支持超节点亲和调度
  • 支持Kubernetes v1.30

1.13.7

v1.21

v1.23

v1.25

v1.27

v1.28

v1.29

  • 网卡资源调度支持前置预热
  • 支持自定义资源超卖比例

1.13.3

v1.21

v1.23

v1.25

v1.27

v1.28

v1.29

  • 支持自定义资源按照节点优先级缩容
  • 优化抢占与节点扩容联动能力

1.13.1

v1.21

v1.23

v1.25

v1.27

v1.28

v1.29

调度器内存使用优化

1.12.18

v1.21

v1.23

v1.25

v1.27

v1.28

v1.29

  • 适配CCE v1.29集群
  • 默认开启抢占功能

1.12.1

v1.19.16

v1.21

v1.23

v1.25

v1.27

v1.28

应用弹性扩缩容性能优化

1.11.21

v1.19.16

v1.21

v1.23

v1.25

v1.27

v1.28

  • 支持Kubernetes v1.28
  • 支持负载感知调度
  • 镜像OS更新为HCE 2.0
  • 优化CSI资源抢占能力
  • 优化负载感知重调度能力
  • 优化混部场景抢占能力

1.11.9

v1.19.16

v1.21

v1.23

v1.25

v1.27

  • 优化NPU芯片rank table排序能力
  • 支持应用弹性伸缩场景下的优先级调度

1.11.6

v1.19.16

v1.21

v1.23

v1.25

v1.27

  • 支持Kubernetes v1.27
  • 支持重调度功能
  • 支持节点池亲和调度能力
  • 优化调度性能

1.10.14

v1.19.16

v1.21

v1.23

v1.25

  • 支持GPU资源抢占
  • 优化混部弹性限流功能
  • 增强可用区拓扑分布能力
  • 优化NPU芯片rank table排序能力
  • 优化GPU虚拟化功能
  • 提升与CA联动扩容效率
  • 提升调度稳定性
  • 优化持久卷调度逻辑
  • 优化日志信息

1.10.7

v1.19.16

v1.21

v1.23

v1.25

修复本地持久卷插件未计算预绑定到节点的pod的问题

1.10.5

v1.19.16

v1.21

v1.23

v1.25

  • volcano agent支持资源超卖。
  • 添加针对GPU资源字段的校验admission:nvidia.com/gpu应小于1或者为正整数,volcano.sh/gpu-core.percentage应小于100并为5的倍数。
  • 修复存在PVC绑定失败的场景下,后续提交Pod调度慢的问题。
  • 修复节点上存在长时间Teminating Pod场景下,新提交Pod无法运行的问题。
  • 修复并发创建挂载PVC的Pod的场景下,volcano重启的问题。

1.9.1

v1.19.16

v1.21

v1.23

v1.25

  • 修复networkresource插件计数pipeline pod占用subeni问题
  • 修复binpack插件对资源不足节点打分问题
  • 修复对结束状态未知的Pod的资源的处理
  • 优化事件输出
  • 默认高可用部署

1.7.2

v1.19.16

v1.21

v1.23

v1.25

  • Volcano支持v1.25集群
  • 提升Volcano调度性能

1.7.1

v1.19.16

v1.21

v1.23

v1.25

Volcano支持v1.25集群

1.4.7

v1.15

v1.17

v1.19

v1.21

删除Pod状态Undetermined,以适配集群Autoscaler的弹性能力。

1.4.5

v1.17

v1.19

v1.21

volcano-scheduler的部署方式由StatefulSet调整为Deployment,修复节点异常时Pod无法自动迁移的问题

1.4.2

v1.15

v1.17

v1.19

v1.21

  • 修复跨GPU分配失败问题
  • 适配更新后的EAS API

1.3.7

v1.15

v1.17

v1.19

v1.21

  • 支持在/离线作业混合部署及资源超卖功能
  • 优化集群调度吞吐性能
  • 修复特定场景下调度器panic的问题
  • 修复CCE v1.15集群中volcano作业volumes.secret校验失败的问题
  • 修复挂载volume,作业调度不成功的问题

1.3.3

v1.15

v1.17

v1.19

v1.21

修复GPU异常导致的调度器崩溃问题;修复特权Init容器准入失败问题

1.3.1

v1.15

v1.17

v1.19

  • 升级Volcano框架到最新版本
  • 支持Kubernetes v1.19版本
  • 添加numa-aware插件
  • 修复多队列场景下Deployment扩缩容的问题
  • 调整默认开启的算法插件

1.2.5

v1.15

v1.17

v1.19

  • 修复某些场景下OutOfcpu的问题
  • 修复queue设置部分capability情况下Pod无法调度问题
  • 支持volcano组件日志时间与系统时间保持一致
  • 修复队列间多抢占问题
  • 修复ioaware插件在某些极端场景下结果不符合预期的问题
  • 支持混合集群

1.2.3

v1.15

v1.17

v1.19

  • 修复因为精度不够引发的训练任务OOM的问题
  • 修复CCE v1.15以上版本GPU调度的问题,暂不支持任务分发时的CCE版本滚动升级
  • 修复特定场景下队列状态不明的问题
  • 修复特定场景下作业挂载PVC panic的问题
  • 修复GPU作业无法配置小数的问题
  • 添加ioaware插件
  • 添加ring controller

相关文档