升级专属资源池驱动
场景介绍
当专属资源池中的节点含有GPU/NPU资源时,资源池节点性能如果无法满足现有业务,升级驱动可以修复已知问题、提升性能或者支持新功能,确保资源池性能和兼容性得到优化。
ModelArts提供升级专属资源池GPU/NPU驱动的功能,您可根据自身业务需要通过ModelArts控制台升级专属资源池内节点池的GPU/NPU驱动。
安全升级与强制升级对比
驱动升级有两种升级方式:安全升级、强制升级,对比如下。
| 对比项 | 安全升级 | 强制升级 |
|---|---|---|
| 介绍 | 在节点空闲时进行驱动升级,不会影响正在运行的任务。升级过程平滑,减少对业务的影响。 开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。 | 忽略节点上正在运行的任务,直接进行驱动升级。 升级速度快,无需等待节点空闲。 |
| 适用场景 | 非紧急情况,逐步升级。 | 紧急情况,快速完成升级。 |
| 注意事项 | 需等待节点空闲,升级周期较长。在升级前,建议提前安排节点空闲时间,以减少对业务的影响。 | 可能导致正在运行的任务中断或失败。需谨慎使用,避免对业务造成影响。 |
约束限制
- 专属资源池状态处于运行中,且目标节点池中的节点需要含有GPU/NPU资源,节点池驱动处于运行中。
- 对于资源队列,需要开启节点绑定后才能进行驱动升级。
- 节点池驱动升级时,资源队列下绑定的节点不会升级到节点池指定的驱动版本。如果要升级该资源队列下节点的驱动,需要在对应的资源队列进行驱动升级。如需升级整个节点池,需先关闭节点绑定。
- GPU节点池驱动升级前,需要将该资源池的插件“AI 套件 - GPU”升级到1.2.24及以上。
- 升级需要重启节点,建议在低峰期进行,以避免影响正在运行的任务,可前往资源池详情页3查看资源池节点状态。
升级专属资源池GPU/NPU驱动
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 专属资源池”)。
- 在资源池列表中,选择需要进行驱动升级的资源池,单击名称进入详情页。
- 在详情页中,选择节点池页签。在操作列单击“更多 > 驱动升级”。
驱动升级时,如果该集群下资源队列(旧版:逻辑子池)升级过驱动版本,则资源队列下绑定的节点不会升级到节点池指定的驱动版本。要升级该资源队列下节点的驱动,需要在对应的资源队列进行驱动升级。
- 在“驱动升级”弹窗中,会显示当前专属资源池的驱动类型、实例数、当前版本、目标版本、升级策略、升级方式、和开启滚动开关等信息。按表2设置驱动升级参数。
表2 驱动升级参数说明 参数
说明
驱动类型
分为GPU和Ascend。
实例数
标准池中需要升级的节点数。
当前版本
节点池当前的驱动版本。
一个节点池中的节点驱动版本都相同。
目标版本
在目标版本下拉框中,选择当前驱动待升级的目标驱动版本。
对于资源池新增加的节点,可能会与资源池原有节点驱动不一致,为了保持驱动一致,目标版本可选择当前驱动版本,升级完成后所有节点驱动会升级为统一版本。
升级策略
是否刷新存量节点:开启后,会同步升级该节点池下所有存量节点的驱动版本。
升级方式
可选择安全升级或强制升级,具体对比请见安全升级与强制升级对比。
- 安全升级:待节点上没有作业时再升级,升级周期可能比较长。
- 强制升级:忽略运行中作业,直接升级,可能会导致运行中作业失败。
开启滚动升级
开启开关后,支持滚动升级的方式升级驱动。
滚动升级是一种逐步替换实例的升级方式,适用于需要保持服务连续性的场景。通过分批次升级实例,确保在升级过程中始终有部分实例正常运行,从而减少停机时间。
滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。
滚动方式
勾选“开启滚动升级”后展示此参数。
当前支持“按节点比例”和“按实例数量”两种滚动方式。
- 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”。
- 按实例数量:每批次驱动升级的实例数量为设置的实例数量。
对于不同的升级方式,滚动升级选择节点的策略会不同:
- 如果“升级方式”为“安全升级”,则根据滚动实例数量选择无业务的节点,隔离节点并滚动升级。
无业务节点定义:在资源池详情“节点”页签下,如果GPU/NPU的可用数等于总数,则为无业务节点。
- 如果“升级方式”为“强制升级”,则根据滚动实例数量随机选择节点,隔离节点并滚动升级。
节点比例
“滚动方式”选择“按节点比例”时,需要设置每批次驱动升级的实例数量比例,每批次驱动升级的实例数量为“节点比例*资源池实例总数”。
“滚动方式”选择“按节点数量”时,需要设置每批次驱动升级的实例数量。
图1 驱动升级
- 设置完成后,单击“确定”开始驱动升级。
在资源池的节点池列表中,选择目标节点池,单击操作列中的“更多”,然后选择“驱动升级”。在弹出的“驱动升级”页面中,查看当前版本和目标版本是否一致。如果一致,说明驱动已成功升级。
常见问题
专属资源池节点故障定位
对于专属资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。详情请见资源池节点故障定位。