更新时间:2025-09-08 GMT+08:00
分享

检查环境

部署推理服务,需要机器在同一个集群,NPU卡之间IP能够ping通方可,每个节点都要检查NPU卡,具体步骤如下:

  1. SSH登录机器后,检查NPU设备检查。如果Snt9b23驱动版本不是24.1.RC3.10及以上或Snt9b驱动版本不是24.1.0.3及以上,请先升级驱动和对应固件。

    npu-smi info -t board -i 1 | egrep -i "software|firmware"   # 查看驱动和固件版本

    Snt9b23资源使用的固件包名称为”Atlas-A3-hdk-npu-firmware_版本号.run”,驱动包名称为”Atlas-A3-hdk-npu-driver_版本号_linux-aarch64.run”。

    Snt9b资源使用的固件包名称为”Ascend-hdk-910b-npu-firmware_版本号.run”,驱动包名称为”Ascend-hdk-910b-npu-driver_版本号_linux-aarch64.run”。

    固件驱动商用版权限受控,仅华为工程师和渠道用户有权限下载,下载地址请见固件驱动包下载链接

  2. 登录每个节点,检查NPU卡是否正常挂载。运行如下命令,返回NPU设备信息可用的卡数。

    npu-smi info    # 启动推理服务之前检查卡是否被占用、端口是否被占用,是否有对应运行的进程

  3. 在每个节点执行命令,查看当前节点卡IP。

    # Snt9b资源
    for i in $(seq 0 7);do hccn_tool -i $i -ip -g;done
    # Snt9b23资源
    for i in $(seq 0 15);do hccn_tool -i $i -ip -g;done

  4. 检查同一节点和跨节点之间卡的网络是否互通。建议在每个节点上都检查网络。

    # 在另一个机器上执行,29.81.3.172是上一步输出的ipaddr的值
    hccn_tool -i 0 -ping -g address 29.81.3.172

相关文档