检查环境
部署推理服务,需要机器在同一个集群,NPU卡之间IP能够ping通方可,每个节点都要检查NPU卡,具体步骤如下:
- SSH登录机器后,检查NPU设备检查。如果Snt9b23驱动版本不是24.1.RC3.10及以上或Snt9b驱动版本不是24.1.0.3及以上,请先升级驱动和对应固件。
npu-smi info -t board -i 1 | egrep -i "software|firmware" # 查看驱动和固件版本
Snt9b23资源使用的固件包名称为”Atlas-A3-hdk-npu-firmware_版本号.run”,驱动包名称为”Atlas-A3-hdk-npu-driver_版本号_linux-aarch64.run”。
Snt9b资源使用的固件包名称为”Ascend-hdk-910b-npu-firmware_版本号.run”,驱动包名称为”Ascend-hdk-910b-npu-driver_版本号_linux-aarch64.run”。
固件驱动商用版权限受控,仅华为工程师和渠道用户有权限下载,下载地址请见固件驱动包下载链接。
- 登录每个节点,检查NPU卡是否正常挂载。运行如下命令,返回NPU设备信息可用的卡数。
npu-smi info # 启动推理服务之前检查卡是否被占用、端口是否被占用,是否有对应运行的进程
- 在每个节点执行命令,查看当前节点卡IP。
# Snt9b资源 for i in $(seq 0 7);do hccn_tool -i $i -ip -g;done # Snt9b23资源 for i in $(seq 0 15);do hccn_tool -i $i -ip -g;done
- 检查同一节点和跨节点之间卡的网络是否互通。建议在每个节点上都检查网络。
# 在另一个机器上执行,29.81.3.172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172