GPU A系列裸金属服务器如何进行RoCE性能带宽测试?
场景描述
本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。
前提条件
GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。)
操作步骤
方法1:使用mlx硬件计数器,估算ROCE网卡收发流量
统计300s内流量,统计脚本如下:
x=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data) sleep 300 y=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data) res=$(($y-$x)) echo $res
上述获取的值*4/300 ,即为当前网卡的接收速率,单位Byte/s。
方法2:使用ib_write_bw测试RDMA的读写处理确定带宽
服务器A:服务端从mlx4_0网卡接收数据
ib_write_bw -a -d mlx5_0
服务器B:客户端向服务端mlx4_0网卡发送数据。
ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits