文档首页/ AI开发平台ModelArts/ 常见问题/ Lite Server/ GPU A系列裸金属服务器如何进行RoCE性能带宽测试?
更新时间:2024-09-05 GMT+08:00
分享

GPU A系列裸金属服务器如何进行RoCE性能带宽测试?

场景描述

本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。

前提条件

GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。)

操作步骤

方法1:使用mlx硬件计数器,估算ROCE网卡收发流量

统计300s内流量,统计脚本如下:

x=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data)
sleep 300
y=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data)
res=$(($y-$x))
echo $res

上述获取的值*4/300 ,即为当前网卡的接收速率,单位Byte/s。

方法2:使用ib_write_bw测试RDMA的读写处理确定带宽

服务器A:服务端从mlx4_0网卡接收数据

ib_write_bw -a -d mlx5_0

服务器B:客户端向服务端mlx4_0网卡发送数据。

ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits
图1 服务器A执行结果
图2 服务器B执行结果

相关文档