更新时间:2026-01-08 GMT+08:00
分享

驱动升级

解释说明

当资源池中的节点包含GPU/NPU资源时,如果节点性能无法满足现有业务需求,升级驱动可以修复已知问题、提升性能或支持新功能,从而确保资源池的性能和兼容性得到优化。

驱动升级分为节点池驱动升级和单节点驱动升级,具体操作因资源池类型而异。

  • Standard标准池

    在Standard标准池中,驱动升级在详情页的“节点池”页签操作,默认升级节点池中所有可升级节点的驱动。Standard标准池不支持单节点驱动升级。

    标准池的升级策略默认勾选了“是否刷新存量节点”,且不支持取消选择,升级时会更新节点池中所有节点的驱动。

    详情请参见升级Standard专属资源池驱动

  • 轻量集群Lite Cluster

    在轻量集群Lite Cluster中,单个节点驱动升级在“节点管理”页面操作,整个节点池的驱动升级在“节点池管理”页面操作。

    轻量集群Lite Cluster的升级策略可以勾选“是否刷新存量节点”。如果不勾选,仅设置节点池的驱动版本,不会升级节点池中节点的驱动。

    详情请参见升级Lite Cluster资源池驱动

安全升级与强制升级对比

驱动升级有两种升级方式:安全升级、强制升级,对比如下。

表1 安全升级与强制升级对比

对比项

安全升级

强制升级

介绍

在节点空闲时进行驱动升级,不会影响正在运行的任务。升级过程平滑,减少对业务的影响。

开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。

忽略节点上正在运行的任务,直接进行驱动升级。

升级速度快,无需等待节点空闲。

适用场景

非紧急情况,逐步升级。

紧急情况,快速完成升级。

注意事项

需等待节点空闲,升级周期较长。在升级前,建议提前安排节点空闲时间,以减少对业务的影响。

可能导致正在运行的任务中断或失败。需谨慎使用,避免对业务造成影响。

表2 驱动升级参数说明

参数

说明

开启滚动升级

开启开关后,支持滚动升级的方式升级驱动。

滚动升级是一种逐步替换实例的升级方式,适用于需要保持服务连续性的场景。通过分批次升级实例,确保在升级过程中始终有部分实例正常运行,从而减少停机时间。

滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。

滚动方式

勾选“开启滚动升级”后展示此参数。

当前支持“按节点比例”“按实例数量”两种滚动方式。

  • 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”
  • 按实例数量:每批次驱动升级的实例数量为设置的实例数量。

对于不同的升级方式,滚动升级选择节点的策略会不同:

  • 如果“升级方式”“安全升级”,则根据滚动实例数量选择无业务的节点,隔离节点并滚动升级。

    无业务节点定义:在资源池详情“节点”页签下,如果GPU/NPU的可用数等于总数,则为无业务节点。

  • 如果“升级方式”“强制升级”,则根据滚动实例数量随机选择节点,隔离节点并滚动升级。

节点比例

“滚动方式”选择“按节点比例”时,需要设置每批次驱动升级的实例数量比例,每批次驱动升级的实例数量为“节点比例*资源池实例总数”

“滚动方式”选择“按节点数量”时,需要设置每批次驱动升级的实例数量。

相关文档