更新时间:2026-02-06 GMT+08:00
分享

升级轻量算力节点中的GPU驱动等软件

场景描述

在高性能计算和深度学习领域,用户经常需要使用最新的GPU驱动和相关软件来优化计算性能。然而,当前市场上许多GPU机型在购买时预装的驱动和软件版本可能较旧,导致用户在使用最新版本的CUDA时遇到兼容性问题。

为了提升用户体验,轻量算力节点提供了一键式软件升级功能,支持GPU驱动、CUDA、nvidia-fabricmanager、nv_peer_mem和NCCL的自动升级。用户可以通过命令查询支持的软件版本,并下发升级任务,从而避免手动登录不同机器进行软件下载、安装和验证的繁琐过程。此外,升级过程中会自动处理nv_peer_mem的废弃和nvidia-peermem的启用,确保所有组件版本的一致性,提升系统的稳定性和可靠性。

表1 支持升级的软件

软件

描述

版本

GPU驱动

GPU驱动程序,与CUDA有配套关系。

550.90.07

CUDA

并行计算平台和编程模型,用于开发GPU加速的应用程序。

12.4

nvidia-fabricmanager

资源管理与调度,在多GPU、多节点环境中管理NVLink、GPU和网络资源

与nvidia驱动版本一一配套

550.90.07

nv_peer_mem

数据传输加速,启用GPU Direct RDMA,优化GPU与网卡间的数据路径。

nv_peer_mem在cuda11.5已废弃,替代品(nvidia_peermem)已集成至驱动

NCCL

分布式通信库,用于优化多GPU或多节点环境中的数据传输效率。

2.27.6

约束限制

  • 升级软件包过程中,不允许对Host或Device进行复位或下电操作,否则会出现Device无法正常启动或者升级失败。
  • 在软件包升级前,需确保无相关业务进程占用节点,包含容器映射场景。
  • 请使用同一个软件版本列表下的驱动版本、fabricmanager,使之保持配套关系。
  • 本需求当前仅支持550版本驱动,现网用户驱动版本无统一官方版本,暂不支持回滚。
  • 支持机型Ant1、Ant8、Hnt02、Lnt002和Vnt1。

前提条件

该操作依赖在节点上预安装轻量算力节点轻量算力节点AI插件,请通过安装轻量算力节点轻量算力节点AI插件章节完成插件安装。

操作步骤

  1. 登录ModelArts管理控制台,在左侧导航栏找到资源管理下的轻量算力节点页面,进入“任务中心”
    • 新版控制台:在左侧导航栏中,选择资源管理 > 轻量算力资源 > 轻量算力节点
    • 旧版控制台:在左侧导航栏中,选择资源管理 > 轻量算力节点
    图1 任务中心

  2. 单击任务中心页面左上角的“创建任务”,进入“任务模板”页面,在该页面选择“驱动组件升级”,单击“创建任务”
    图2 任务模板
  3. 在驱动组件升级创建页面,填写“任务名称”“任务描述”,选择“任务类型”“机型”,单击“选择节点”,在节点列表中勾选节点后单击"确认",该操作会在相应节点下发驱动固件版本查询任务,大约耗时一分钟,以便获取真实的驱动固件信息。
    表2 创建任务参数

    参数名称

    参数说明

    任务名称

    系统自动填入任务名称,用户可以自定义。

    任务描述

    对该任务的描述信息,方便快速查找任务。

    任务类型

    选择“驱动升级”

    机型

    支持机型Ant1、Ant8、Hnt02、Lnt002、Vnt1。

    选择节点

    单击“选择节点”,在节点列表中选择需要升级驱动固件的节点,支持批量选择,也可以通过关键字搜索,之后单击“确定”

    选择驱动版本

    在下拉框中选择待升级的目标驱动组件版本。

    请自行确认目标驱动组件版本与业务软件兼容,避免因版本不匹配导致升级失败或业务中断。

    本次升级操作不支持回滚,请务必提前做好风险评估和数据备份。

    驱动版本查询命令如下:

    nvidia-smi
  4. 选择待升级的驱动版本后,单击“下一步”,确认升级信息,单击“确认”,下发升级任务。升级任务下发后,Ant1驱动升级预计需要1小时,其它机型大约需要30分钟完成整个升级过程。
  5. 升级过程中,返回“任务中心”页面,查看任务的执行状态。单击具体的任务名称,可以进入任务详情页,查看任务的详细信息和日志。
  6. 在节点执行命令查看驱动是否加载成功。
    nvidia-smi

相关文档