NPU Snt9B RoCE网卡带宽测试指导方案
场景描述
本文介绍如何在NPU Snt9B服务器上进行RoCE网卡带宽测试。本文选择的服务器镜像是:EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1,该镜像已经安装CANN和mpich,并完成了环境配置。
操作步骤
- 多机RoCE网卡带宽测试。
- 执行以下命令查看昇腾的RoCE IP:
cat /etc/hccn.conf
图1 查看昇腾的RoCE IP
- 执行以下命令查看昇腾的RoCE IP:
- RoCE测试。
在Session1:在接收端执行 -i卡id。
hccn_tool -i 7 -roce_test reset hccn_tool -i 7 -roce_test ib_send_bw -s 4096000 -n 1000 -tcp
在Session2:在发送端执行 -i卡id,后面的ip为上一步接收端卡的ip。
cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test hccn_tool -i 0 -roce_test reset hccn_tool -i 0 -roce_test ib_send_bw -s 4096000 -n 1000 address 192.168.100.18 -tcp
RoCE测试结果如图:
图2 RoCE测试结果(接收端)
图3 RoCE测试结果(服务端)- 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错:
图4 报错信息
需要执行下述命令后关闭roce_test任务后再启动任务。
hccn_tool -i 7 -roce_test reset
- 可执行如下命令查看网卡状态。
for i in {0..7};do hccn_tool -i ${i} -link -g;done
- 可执行如下命令查看单节点内网卡IP连通性。
for i in $(seq 0 7);do hccn_tool -i $i -net_health -g;done
- 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错: