更新时间:2025-09-05 GMT+08:00
分享

升级Lite Server中的昇腾驱动固件版本

场景描述

本文旨在指导用户如何通过Lite Server的任务中心下发昇腾固件驱动升级任务,通过该任务可以在Snt9b机器上完成驱动固件的一键升级。

约束限制

  • 当前仅支持Ascend Snt9b和Ascend Snt9b23节点。
  • 升级驱动固件过程中会导致业务中断,升级前请保证节点内无业务运行,同时升级完毕后需要重启节点生效。
  • 驱动固件升级过程中会同步升级节点内的MCU的配套版本。
  • 如果节点内驱动固件版本为官方维护版本,升级失败支持回滚至节点内驱动固件原始版本,如果节点内驱动固件损坏,或者节点内驱动固件版本为非官方维护版本,会导致查询节点内驱动固件失败,该场景下升级任务仍可下发,但如果升级失败无法回滚,需要联系华为运维工程师处理。
  • 驱动固件与昇腾软件包(CANN/MindSpore等)有兼容性关系,请确保升级后的驱动固件版本与业务中使用的昇腾软件包的兼容性,可参考表1确认组件兼容性。
    表1 组件兼容性

    CANN版本

    配套Ascend HDK版本

    CANN 8.0.RC3

    Ascend HDK 24.1.RC3

    Ascend HDK 24.1.RC2

    Ascend HDK 24.1.RC1

    Ascend HDK 23.0.0/23.0.X

    CANN 8.0.0

    Ascend HDK 24.1.0

    Ascend HDK 24.1.RC3

    Ascend HDK 24.1.RC2

    Ascend HDK 24.1.RC1

    Ascend HDK 23.0.0/23.0.X

    CANN 8.1.RC1

    Ascend HDK 25.0.RC1

    Ascend HDK 24.1.0

    Ascend HDK 24.1.RC3

    Ascend HDK 24.1.RC2

    Ascend HDK 24.1.RC1

    Ascend HDK 23.0.X

    CANN 8.2.RC1

    Ascend HDK 25.2.0

    Ascend HDK 25.0.RC1

    Ascend HDK 24.1.0

    Ascend HDK 24.1.RC3

    Ascend HDK 24.1.RC2

前提条件

该操作依赖在节点上预安装Lite Server AI插件,请通过安装Lite Server AI插件章节完成插件安装。

操作步骤

  1. 登录ModelArts管理控制台
  2. 在左侧导航栏中,选择资源管理 > 轻量算力节点 (Lite Server),进入“任务中心”
    图1 任务中心

  3. 单击任务中心页面左上角的“创建任务”,进入“任务模板”页面,在该页面选择“Ascend软件升级”,单击“创建任务”
    图2 任务模板

  4. 在昇腾软件升级创建页面,填写“任务名称”“任务信息”,选择“机型”“节点类型”,选择“选择节点”,在右侧节点列表弹窗中勾选节点后单击"确认",该操作会在相应节点下发驱动固件版本查询任务,大约耗时一分钟,以便获取真实的驱动固件信息。
    表2 创建任务参数

    参数分类

    参数说明

    任务名称

    系统自动填入压测任务名称,用户可以自定义。

    任务描述

    对该任务的描述信息,方便快速查找任务。

    机型

    仅支持Ascend Snt9b和Ascend Snt9b23两种机型。

    节点类型

    支持选择“单节点”“整柜节点”

    选择节点

    单击“选择节点”,在右侧弹出的节点列表中选择需要升级驱动固件的节点,支持批量选择,也可以通过关键字搜索,之后单击“确定”

    该操作会在选择的节点内下发一个查询任务,查询节点内驱动固件版本和CANN信息。

    等待查询结果刷新,该过程大约耗时一分钟。

    软件版本

    在下拉框中选择待升级的目标驱动固件版本。

    请考表1确认组件兼容性,避免升级失败导致业务中断。也可以参考Lite Server节点故障诊断章节,下发昇腾设备的故障诊断任务,该任务会自动诊断驱动固件与CANN的兼容性。

  5. 在软件版本下拉框中选择待升级驱动固件版本后,单击“下一步”,确认升级信息,选择升级后自动或手动重启,单击确认创建,下发升级任务。升级任务下发后,大约需要十分钟完成整个升级过程。
  6. 升级过程中,返回“任务中心”页面,查看任务的执行状态。单击具体的任务名称,可以进入到任务详情页,查看任务的详细信息和日志。
  7. 升级成功后需要重启生效,如果选择手动重启,请在节点执行reboot操作,重启操作大约需要十分钟。
  8. 在节点执行命令查看驱动是否加载成功,如果返回如下信息则加载成功,否则请联系华为工程师处理。
    npu-smi info
    图3 查看驱动是否加载成功

相关文档