更新时间:2022-08-29 GMT+08:00
分享

通讯录安装

Udapl安装和测试

  1. Udapl安装

    cd /root

    wget https://linux.mellanox.com/public/repo/mlnx_ofed/4.1-1.0.2.0/SRPMS/dapl-2.1.10mlnx-OFED.3.4.2.1.0.41102.src.rpm

    rpm -ivh dapl-2.1.10mlnx-OFED.3.4.2.1.0.41102.src.rpm

    cd /root/rpmbuild/SOURCES && tar -xvf dapl-2.1.10mlnx.tar.gz

    cd dapl-2.1.10mlnx

    ./configure --prefix=/usr --sysconf=/etc --libdir=/usr/lib64 LDFLAGS="-L/usr/lib64" CPPFLAGS="-I/usr/include"

    make

    make install

  2. Udapl配置修改

    /etc/dat.conf首行(放在末尾运行STAR-CCM+会有异常)加入如下配置。

    ofa-v2-cma-roe-enp177s0 u2.0 nonthreadsafe default libdaplofa.so.2 dapl.2.0 "enp177s0 0" ""

    • ofa-v2-cma-roe-enp177s0为配置名称,可以修改,但是要保持所有节点一致,并且后面starccm使用platform方式启动时候需要使用该配置名称。
    • enp177s0为网卡名称,可以使用ip a或者ipconfig查看到。

  3. 验证Udapl(使用dtest测试RoCE网络)

    使用 dtest 进行验证:

    server端(192.168.0.96):dtest -P ofa-v2-cma-roe-enp177s0 -v -s

    client端(192.168.0.166):dtest -P ofa-v2-cma-roe-enp177s0 -v -h 192.168.0.96

    • ofa-v2-cma-roe-enp177s0是上一步/etc/dat.conf中首行配置的名称;
    • client端的192.168.0.96是server端的ip。

    验证通过的观测指标:client和server端都出现DAPL Test Complete. PASSED则表示验证通过

Ucx安装

cd /root

yum install numactl-devel.x86_64 -y

tar zxvf ucx-1.6.0.tar.gz

cd ucx-1.6.0

./autogen.sh

mkdir -p /home/openmpi-run/ucx-1.6.0

./contrib/configure-release --prefix=/home/openmpi-run/ucx-1.6.0

make

make install

echo “export PATH=/home/openmpi-run/ucx-1.6.0/bin:$PATH” >> /root/.bashrc

./autogen.sh执行时候遇到错误可以忽略,继续往后面执行。

相关文档