更新时间:2024-04-30 GMT+08:00
分享

NPU Snt9B RoCE网卡带宽测试指导方案

场景描述

本文介绍如何在NPU Snt9B服务器上进行RoCE网卡带宽测试。本文选择的服务器镜像是:EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1,该镜像已经安装CANN和mpich,并完成了环境配置。

操作步骤

  1. 多机RoCE网卡带宽测试。

    1. 执行以下命令查看昇腾的RoCE IP:
      cat /etc/hccn.conf
      图1 查看昇腾的RoCE IP

  2. RoCE测试。

    在Session1:在接收端执行 -i卡id。

    hccn_tool -i 7 -roce_test reset
    hccn_tool -i 7 -roce_test ib_send_bw -s 4096000 -n 1000 -tcp

    在Session2:在发送端执行 -i卡id,后面的ip为上一步接收端卡的ip。

    cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test
    hccn_tool -i 0 -roce_test reset
    hccn_tool -i 0 -roce_test ib_send_bw -s 4096000 -n 1000 address 192.168.100.18 -tcp

    RoCE测试结果如图:

    图2 RoCE测试结果(接收端)
    图3 RoCE测试结果(服务端)

    • 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错:
      图4 报错信息

      需要执行下述命令后关闭roce_test任务后再启动任务。

      hccn_tool -i 7 -roce_test reset
    • 可执行如下命令查看网卡状态。
      for i in {0..7};do hccn_tool -i ${i} -link -g;done
    • 可执行如下命令查看单节点内网卡IP连通性。
      for i in $(seq 0 7);do hccn_tool -i $i -net_health -g;done

分享:

    相关文档

    相关产品