更新时间:2025-08-14 GMT+08:00
(可选)配置驱动
当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动来满足业务需求。
Lite Cluster支持两种配置驱动的方式:
- 方式一:购买资源池时通过自定义驱动参数进行配置:在购买资源池页面,部分GPU和Ascend规格资源池允许自定义安装驱动。开启自定义驱动开关并选择需要的驱动版本即可。
- 方式二:通过驱动升级功能对已有的资源池驱动版本进行升级:如果在购买资源池时,没配置自定义驱动,默认驱动不满足业务要求,可通过驱动升级功能将驱动升级到指定版本。
方式一:购买资源池时通过自定义驱动参数进行配置
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群 (Standard Cluster)”。
- 在“标准算力集群 (Standard Cluster) ”页面,单击“购买标准算力集群”,进入购买标准算力集群界面填写参数。
部分GPU和Ascend规格资源池允许自定义安装驱动。配置资源调度与切分时,打开“自定义驱动”开关,在
“GPU驱动/Ascend驱动”选择对应GPU/Ascend驱动。gpu-driver配套版本请参考不同机型对应的软件配套版本。
图1 GPU/Ascend驱动更多参数说明请参考Lite Cluster资源开通。
- 单击“立即购买”确认规格。产品规格和协议许可确认无误后,单击“提交”,即可创建Lite Cluster资源池。
方式二:通过驱动升级功能对已有的资源池驱动版本进行升级
如果在购买资源池时,没配置自定义驱动,默认驱动不满足业务要求,可通过驱动升级功能将驱动升级到指定版本。
- Lite Cluster资源池状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。
- 升级需要重启节点,建议在低峰期进行,以避免影响正在运行的任务,可前往资源池详情页“节点管理”页面查看节点资源占用情况。
升级驱动会重启节点。如果主机进行过差异化配置,重启节点可能会导致配置丢失,需谨慎考虑。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。在资源池列表中,选择需要进行驱动升级的资源池“
> 驱动升级”。
或者在资源池列表单击资源池名称,进入资源池详情页,切换至“节点池管理”页签,单击节点池操作列“更多>驱动升级”。
- 在“驱动升级”弹窗中,会显示当前Lite Cluster资源池的驱动类型、实例数、当前版本、目标版本、升级方式、升级范围和开启滚动开关。
按表2设置驱动升级参数。
- 设置完成后,单击“确定”开始升级驱动。
在资源池列表中,选择目标资源池,单击操作列中的
,然后选择“驱动升级”。在弹出的“驱动升级”页面中,查看当前版本和目标版本是否一致。如果一致,说明驱动已成功升级。
驱动升级更多介绍可参考升级Lite Cluster资源池驱动。
下一步操作
(可选)配置镜像预热:Lite Cluster资源池支持镜像预热功能,镜像预热可实现将镜像提前在资源池节点上拉取好,在推理及大规模分布式训练时有效缩短镜像拉取时间。
父主题: Lite Cluster资源配置