更新时间:2024-11-21 GMT+08:00
分享

升级Lite Cluster资源池驱动

场景介绍

当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。

驱动升级有两种升级方式:安全升级、强制升级。

  • 安全升级:不影响正在运行的业务,开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。
  • 强制升级:忽略资源池中正在运行的作业,直接进行驱动升级,可能会导致运行中作业失败,需谨慎选择。

约束限制

Lite Cluster资源池状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。

资源池驱动升级操作

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。
  2. 在资源池列表中,选择需要进行驱动升级的资源池“ > 驱动升级”。

  3. “驱动升级”弹窗中,会显示当前专属资源池的驱动类型、实例数、当前版本、目标版本、升级方式、升级范围和开启滚动开关。
    • 目标版本:在目标版本下拉框中,选择一个目标驱动版本。
    • 升级方式:可选择安全升级或强制升级。
      • 安全升级:待节点上没有作业时再升级,升级周期可能比较长。
      • 强制升级:忽略运行中作业,直接升级,可能会导致运行中作业失败。
    • 开启滚动:开启开关后,支持滚动升级的方式进行驱动升级。当前支持“按节点比例”“按实例数量”两种滚动方式。
      • 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”
      • 按实例数量:可以设置每批次驱动升级的实例数量。

      对于不同的升级方式,滚动升级选择实例的策略会不同:

      • 如果升级方式为安全升级,则根据滚动节点数量选择无业务的节点,隔离节点并滚动升级。
      • 如果升级方式为强制升级,则根据滚动节点数量随机选择节点,隔离节点并滚动升级。
      • 无业务节点定义:在资源池详情“节点管理”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。
      • 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。
    图1 驱动升级
  4. 选择完成后,单击“确定”开始升级驱动。

相关文档