驱动升级
解释说明
当资源池中的节点包含GPU/NPU资源时,如果节点性能无法满足现有业务需求,升级驱动可以修复已知问题、提升性能或支持新功能,从而确保资源池的性能和兼容性得到优化。
驱动升级分为节点池驱动升级和单节点驱动升级,具体操作因资源池类型而异。
- Standard标准池
在Standard标准池中,驱动升级在详情页的“节点池”页签操作,默认升级节点池中所有可升级节点的驱动。Standard标准池不支持单节点驱动升级。
标准池的升级策略默认勾选了“是否刷新存量节点”,且不支持取消选择,升级时会更新节点池中所有节点的驱动。
详情请参见升级Standard专属资源池驱动。
- 轻量集群Lite Cluster
在轻量集群Lite Cluster中,单个节点驱动升级在“节点管理”页面操作,整个节点池的驱动升级在“节点池管理”页面操作。
轻量集群Lite Cluster的升级策略可以勾选“是否刷新存量节点”。如果不勾选,仅设置节点池的驱动版本,不会升级节点池中节点的驱动。
详情请参见升级Lite Cluster资源池驱动。
安全升级与强制升级对比
驱动升级有两种升级方式:安全升级、强制升级,对比如下。
|
对比项 |
安全升级 |
强制升级 |
|---|---|---|
|
介绍 |
在节点空闲时进行驱动升级,不会影响正在运行的任务。升级过程平滑,减少对业务的影响。 开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。 |
忽略节点上正在运行的任务,直接进行驱动升级。 升级速度快,无需等待节点空闲。 |
|
适用场景 |
非紧急情况,逐步升级。 |
紧急情况,快速完成升级。 |
|
注意事项 |
需等待节点空闲,升级周期较长。在升级前,建议提前安排节点空闲时间,以减少对业务的影响。 |
可能导致正在运行的任务中断或失败。需谨慎使用,避免对业务造成影响。 |
|
参数 |
说明 |
|---|---|
|
开启滚动升级 |
开启开关后,支持滚动升级的方式升级驱动。 滚动升级是一种逐步替换实例的升级方式,适用于需要保持服务连续性的场景。通过分批次升级实例,确保在升级过程中始终有部分实例正常运行,从而减少停机时间。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。 |
|
滚动方式 |
勾选“开启滚动升级”后展示此参数。 当前支持“按节点比例”和“按实例数量”两种滚动方式。
对于不同的升级方式,滚动升级选择节点的策略会不同:
|
|
节点比例 |
“滚动方式”选择“按节点比例”时,需要设置每批次驱动升级的实例数量比例,每批次驱动升级的实例数量为“节点比例*资源池实例总数”。 “滚动方式”选择“按节点数量”时,需要设置每批次驱动升级的实例数量。 |