更新时间:2025-08-14 GMT+08:00

(可选)配置驱动

当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动来满足业务需求。

Lite Cluster支持两种配置驱动的方式:

方式一:购买资源池时通过自定义驱动参数进行配置

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群 (Standard Cluster)”。
  2. 在“标准算力集群 (Standard Cluster) ”页面,单击“购买标准算力集群”,进入购买标准算力集群界面填写参数。

    部分GPU和Ascend规格资源池允许自定义安装驱动。配置资源调度与切分时,打开“自定义驱动”开关,在

    “GPU驱动/Ascend驱动”选择对应GPU/Ascend驱动。gpu-driver配套版本请参考不同机型对应的软件配套版本

    图1 GPU/Ascend驱动

    更多参数说明请参考Lite Cluster资源开通

  3. 单击“立即购买”确认规格。产品规格和协议许可确认无误后,单击“提交”,即可创建Lite Cluster资源池。

方式二:通过驱动升级功能对已有的资源池驱动版本进行升级

如果在购买资源池时,没配置自定义驱动,默认驱动不满足业务要求,可通过驱动升级功能将驱动升级到指定版本。

  • Lite Cluster资源池状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。
  • 升级需要重启节点,建议在低峰期进行,以避免影响正在运行的任务,可前往资源池详情页“节点管理”页面查看节点资源占用情况。

    升级驱动会重启节点。如果主机进行过差异化配置,重启节点可能会导致配置丢失,需谨慎考虑。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。在资源池列表中,选择需要进行驱动升级的资源池“ > 驱动升级”。

    或者在资源池列表单击资源池名称,进入资源池详情页,切换至“节点池管理”页签,单击节点池操作列“更多>驱动升级”

  2. “驱动升级”弹窗中,会显示当前Lite Cluster资源池的驱动类型、实例数、当前版本、目标版本、升级方式、升级范围和开启滚动开关。

    表2设置驱动升级参数。

  3. 设置完成后,单击“确定”开始升级驱动。

    在资源池列表中,选择目标资源池,单击操作列中的,然后选择“驱动升级”。在弹出的“驱动升级”页面中,查看当前版本和目标版本是否一致。如果一致,说明驱动已成功升级。

驱动升级更多介绍可参考升级Lite Cluster资源池驱动

下一步操作

(可选)配置镜像预热:Lite Cluster资源池支持镜像预热功能,镜像预热可实现将镜像提前在资源池节点上拉取好,在推理及大规模分布式训练时有效缩短镜像拉取时间。