升级轻量算力节点中的GPU驱动等软件
场景描述
在高性能计算和深度学习领域,用户经常需要使用最新的GPU驱动和相关软件来优化计算性能。然而,当前市场上许多GPU机型在购买时预装的驱动和软件版本可能较旧,导致用户在使用最新版本的CUDA时遇到兼容性问题。
为了提升用户体验,轻量算力节点提供了一键式软件升级功能,支持GPU驱动、CUDA、nvidia-fabricmanager、nv_peer_mem和NCCL的自动升级。用户可以通过命令查询支持的软件版本,并下发升级任务,从而避免手动登录不同机器进行软件下载、安装和验证的繁琐过程。此外,升级过程中会自动处理nv_peer_mem的废弃和nvidia-peermem的启用,确保所有组件版本的一致性,提升系统的稳定性和可靠性。
|
软件 |
描述 |
版本 |
|---|---|---|
|
GPU驱动 |
GPU驱动程序,与CUDA有配套关系。 |
550.90.07 |
|
CUDA |
并行计算平台和编程模型,用于开发GPU加速的应用程序。 |
12.4 |
|
nvidia-fabricmanager |
资源管理与调度,在多GPU、多节点环境中管理NVLink、GPU和网络资源 |
与nvidia驱动版本一一配套 550.90.07 |
|
nv_peer_mem |
数据传输加速,启用GPU Direct RDMA,优化GPU与网卡间的数据路径。 |
nv_peer_mem在cuda11.5已废弃,替代品(nvidia_peermem)已集成至驱动 |
|
NCCL |
分布式通信库,用于优化多GPU或多节点环境中的数据传输效率。 |
2.27.6 |
约束限制
- 升级软件包过程中,不允许对Host或Device进行复位或下电操作,否则会出现Device无法正常启动或者升级失败。
- 在软件包升级前,需确保无相关业务进程占用节点,包含容器映射场景。
- 请使用同一个软件版本列表下的驱动版本、fabricmanager,使之保持配套关系。
- 本需求当前仅支持550版本驱动,现网用户驱动版本无统一官方版本,暂不支持回滚。
- 支持机型Ant1、Ant8、Hnt02、Lnt002和Vnt1。
前提条件
该操作依赖在节点上预安装轻量算力节点轻量算力节点AI插件,请通过安装轻量算力节点轻量算力节点AI插件章节完成插件安装。
操作步骤
- 登录ModelArts管理控制台,在左侧导航栏找到资源管理下的轻量算力节点页面,进入“任务中心”。
- 新版控制台:在左侧导航栏中,选择。
- 旧版控制台:在左侧导航栏中,选择。
图1 任务中心
- 单击任务中心页面左上角的“创建任务”,进入“任务模板”页面,在该页面选择“驱动组件升级”,单击“创建任务”。
图2 任务模板
- 在驱动组件升级创建页面,填写“任务名称”、“任务描述”,选择“任务类型”和“机型”,单击“选择节点”,在节点列表中勾选节点后单击"确认",该操作会在相应节点下发驱动固件版本查询任务,大约耗时一分钟,以便获取真实的驱动固件信息。
表2 创建任务参数 参数名称
参数说明
任务名称
系统自动填入任务名称,用户可以自定义。
任务描述
对该任务的描述信息,方便快速查找任务。
任务类型
选择“驱动升级”。
机型
支持机型Ant1、Ant8、Hnt02、Lnt002、Vnt1。
选择节点
单击“选择节点”,在节点列表中选择需要升级驱动固件的节点,支持批量选择,也可以通过关键字搜索,之后单击“确定”。
选择驱动版本
在下拉框中选择待升级的目标驱动组件版本。
请自行确认目标驱动组件版本与业务软件兼容,避免因版本不匹配导致升级失败或业务中断。
本次升级操作不支持回滚,请务必提前做好风险评估和数据备份。
驱动版本查询命令如下:
nvidia-smi
- 选择待升级的驱动版本后,单击“下一步”,确认升级信息,单击“确认”,下发升级任务。升级任务下发后,Ant1驱动升级预计需要1小时,其它机型大约需要30分钟完成整个升级过程。
- 升级过程中,返回“任务中心”页面,查看任务的执行状态。单击具体的任务名称,可以进入任务详情页,查看任务的详细信息和日志。
- 在节点执行命令查看驱动是否加载成功。
nvidia-smi