网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务

GPU服务器上配置Lite Server资源软件环境

更新时间:2024-11-21 GMT+08:00
分享

场景描述

本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤,您可针对需要安装的软件查看对应的内容:

以下提供常见的配置场景,您可查看相关文档方便您快速配置:

安装NVIDIA驱动

  1. 打开NVIDIA官方网站
  2. 以Ant8规格为例,根据Ant8的详细信息和您所需的cuda版本选择驱动。

    图1 驱动选择

    选择后会自动出现Driver版本并下载,或者直接。
    wget https://cn.download.nvidia.com/tesla/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run

  3. 添加权限。

    chmod +x NVIDIA-Linux-x86_64-470.182.03.run

  4. 运行安装文件。

    ./NVIDIA-Linux-x86_64-470.182.03.run

    至此NVIDIA-DRIVER驱动安装完成。

安装CUDA驱动

上文安装NVIDIA驱动是根据CUDA12.0选择的安装包, 因此下文默认安装CUDA 12.0。

  1. 进入CUDA Toolkit页面。
  2. 选择Operating System、Architecture、Distribution、Version、Installer Type后,会生成对应的安装命令,复制安装命令并运行即可。

    图2 选择版本

    对应所得安装命令为:

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
    sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
    wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-ubuntu2004-12-1-local_12.1.1-530.30.02-1_amd64.deb
    sudo dpkg -i cuda-repo-ubuntu2004-12-1-local_12.1.1-530.30.02-1_amd64.deb
    sudo cp /var/cuda-repo-ubuntu2004-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
    sudo apt-get update
    sudo apt-get -y install cuda
    说明:

    若需要找到历史版本的CUDA,您可请单击CUDA历史版本的下载链接查找所需的CUDA版本。

安装Docker

部分Vnt1裸金属服务器的预置镜像中未安装Docker,您可参考以下步骤进行安装。

  1. 安装Docker。

    curl https://get.docker.com | sh && sudo systemctl --now enable docker

  2. 安装NIVDIA容器插件。

    distribution=$(. /etc/os-release;echo $ID$VERSION_ID) 
    && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list |
     sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
    apt-get update
    apt-get install -y nvidia-container-toolkit
    nvidia-ctk runtime configure --runtime=docker
    systemctl restart docker

  3. 验证Docker模式环境是否安装成功。

    基于PyTorch2.0镜像验证(本案例中镜像较大,拉取时间可能较长)。

    docker run -ti --runtime=nvidia --gpus all pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel bash
    图3 成功拉取镜像

安装nvidia-fabricmanager

Ant系列GPU支持NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。

说明:

nvidia-fabricmanager必须和nvidia driver版本保持一致。

以安装515.105.01版本为例。

version=515.105.01
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*

验证驱动安装结果:启动fabricmanager服务并查看状态是否为“RUNNING”。

nvidia-smi -pm 1
nvidia-smi
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
systemctl status nvidia-fabricmanager

GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7

本小节旨在指导如何在GP Vnt1裸金属服务器上(Euler2.9系统),安装NVIDIA驱动版本515.105.01,CUDA版本11.7.1。

  1. 安装NVIDIA驱动。

    wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run
    chmod 700 NVIDIA-Linux-x86_64-515.105.01.run
    
    yum install -y elfutils-libelf-devel
    ./NVIDIA-Linux-x86_64-515.105.01.run --kernel-source-path=/usr/src/kernels/4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64
    说明:

    默认情况下Vnt1裸金属服务器在EulerOS 2.9使用的yum源是“http://repo.huaweicloud.com”,该源可用。若执行“yum update”时报错, 显示有软件包冲突等问题, 可通过“yum remove xxx软件包”解决该问题。

    NVIDIA的驱动程序是一个二进制文件,需使用系统中的libelf库(在elfutils-libelf-devel开发包)中。它提供了一组C函数,用于读取、修改和创建ELF文件,而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。

    安装过程中的提示均选OK或YES,安装好后执行reboot重启机器,再次登录后执行命令查看GPU卡信息。

     nvidia-smi -pm 1    #该命令执行时间较长,请耐心等待,作用为启用持久模式,可以优化Linux实例上GPU设备的性能
     nvidia-smi

  2. 安装CUDA。

    wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
    chmod 700 cuda_11.7.1_515.65.01_linux.run
    ./cuda_11.7.1_515.65.01_linux.run --toolkit --samples --silent

    安装好后执行以下命令检查安装结果:

    /usr/local/cuda/bin/nvcc -V

  3. PyTorch2.0安装和CUDA验证指南。

    PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。

    1. miniconda安装并创建alpha环境。
      wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
      chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
      bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda
      export PATH=/home/miniconda/bin:$PATH
      conda create --quiet --yes -n alpha python=3.10
    2. 安装pytorch2.0并验证cuda状态。
      在alpha环境下安装torch2.0,使用清华PIP源完成。
      source activate alpha
      pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
      python
      验证torch与cuda的安装状态,输出为True即为正常。
      import torch
      print(torch.cuda.is_available())

GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4

本小节旨在指导如何在GP Vnt1裸金属服务器上(Ubuntu 18.04系统),安装NVIDIA驱动版本470,CUDA版本11.4。

  1. 安装NVIDIA驱动。

    apt-get update
    sudo apt-get install nvidia-driver-470

  2. 安装CUDA。

    wget https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda_11.4.4_470.82.01_linux.run
    chmod +x cuda_11.4.4_470.82.01_linux.run
    ./cuda_11.4.4_470.82.01_linux.run --toolkit --samples --silent

  3. 验证NVIDIA安装结果。

    nvidia-smi -pm 1
    nvidia-smi
    /usr/local/cuda/bin/nvcc -V

  4. 安装Pytorch2.0和验证CUDA验证。

    PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。

    1. miniconda安装并创建alpha环境。
      wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
      chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
      bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda
      export PATH=/home/miniconda/bin:$PATH
      conda create --quiet --yes -n alpha python=3.10
    2. 安装pytorch2.0并验证cuda状态。
      在alpha环境下安装torch2.0,使用清华PIP源完成。
      source activate alpha
      conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
      python
      验证torch与cuda的安装状态,输出为True即为正常。
      import torch
      print(torch.cuda.is_available())

GP Vnt1裸金属服务器Ubuntu18.04安装NVIDIA 515+CUDA 11.7

本小节旨在指导如何在GP Vnt1裸金属服务器上(Ubuntu 18.04系统),安装NVIDIA驱动版本515、CUDA版本11.7和Docker。

  1. NVIDIA驱动安装。

    wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run
    chmod +x NVIDIA-Linux-x86_64-515.105.01.run
    ./NVIDIA-Linux-x86_64-515.105.01.run

  2. CUDA安装。

    wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
    chmod +x cuda_11.7.1_515.65.01_linux.run
    ./cuda_11.7.1_515.65.01_linux.run --toolkit --samples –silent

  3. 安装Docker。

    curl https://get.docker.com | sh && sudo systemctl --now enable docker

  4. 安装NIVDIA容器插件。

    distribution=$(. /etc/os-release;echo $ID$VERSION_ID) 
    && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list |
     sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
    apt-get update
    apt-get install -y nvidia-container-toolkit
    nvidia-ctk runtime configure --runtime=docker
    systemctl restart docker

  5. 验证Docker模式环境是否安装成功。

    基于PyTorch2.0镜像验证(本案例中镜像较大,拉取时间可能较长)。

    docker run -ti --runtime=nvidia --gpus all pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel bash
    图4 成功拉取镜像

GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11.7

本小节旨在指导如何在GP Ant8裸金属服务器上(Ubuntu 20.04系统),安装NVIDIA驱动版本515、CUDA版本11.7、nvidia-fabricmanager版本515,并进行nccl-test测试。

  1. 替换apt源。

    sudo sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list
    sudo sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list
    sudo apt update

  2. 安装nvidia驱动。

    wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run
    chmod +x NVIDIA-Linux-x86_64-515.105.01.run
    ./NVIDIA-Linux-x86_64-515.105.01.run

  3. 安装cuda。

    # run包安装
    wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
    chmod +x cuda_11.7.0_515.43.04_linux.run
    ./cuda_11.7.0_515.43.04_linux.run --toolkit --samples --silent

  4. 安装nccl。

    说明:

    本文使用cuda版本是11.7,因此安装nccl的命令为:

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
    sudo dpkg -i cuda-keyring_1.0-1_all.deb
    sudo apt update
    sudo apt install libnccl2=2.14.3-1+cuda11.7 libnccl-dev=2.14.3-1+cuda11.7

    安装完成后可以查看:

    图5 查看nccl

  5. 安装nvidia-fabricmanager。

    说明:

    nvidia-fabricmanager必须和nvidia driver版本保持一致。

    version=515.105.01
    main_version=$(echo $version | awk -F '.' '{print $1}')
    apt-get update
    apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*

    验证驱动安装结果:启动fabricmanager服务并查看状态是否为“RUNNING”。

    nvidia-smi -pm 1
    nvidia-smi
    systemctl enable nvidia-fabricmanager
    systemctl start nvidia-fabricmanager
    systemctl status nvidia-fabricmanager

  6. 安装nv-peer-memory。

    git clone https://github.com/Mellanox/nv_peer_memory.git
    cd ./nv_peer_memory
    ./build_module.sh
    cd /tmp
    tar xzf /tmp/nvidia-peer-memory_1.3.orig.tar.gz
    cd nvidia-peer-memory-1.3
    dpkg-buildpackage -us -uc
    dpkg -i ../nvidia-peer-memory-dkms_1.2-0_all.deb

    nv_peer_mem工作在linux内核态,安装完成后需要看是否加载到内核,通过执行“lsmod | grep peer”查看是否加载。

    说明:
    • 如果git clone拉不下来代码,可能需要先设置下git的配置:
      git config --global core.compression -1
      export GIT_SSL_NO_VERIFY=1
      git config --global http.sslVerify false
      git config --global http.postBuffer 10524288000
      git config --global http.lowSpeedLimit 1000
      git config --global http.lowSpeedTime 1800
    • 如果安装完成后lsmod看不到nv-peer-memory,可能是由于ib驱动版本过低导致,此时需要升级ib驱动,升级命令:
      wget https://content.mellanox.com/ofed/MLNX_OFED-5.4-3.6.8.1/MLNX_OFED_LINUX-5.4-3.6.8.1-ubuntu20.04-x86_64.tgz
      tar -zxvf MLNX_OFED_LINUX-5.4-3.6.8.1-ubuntu20.04-x86_64.tgz
      cd MLNX_OFED_LINUX-5.4-3.6.8.1-ubuntu20.04-x86_64
      apt-get install -y python3 gcc quilt build-essential bzip2 dh-python pkg-config dh-autoreconf python3-distutils debhelper make
      ./mlnxofedinstall --add-kernel-support
    • 如果想安装其它更高版本的ib驱动,请参考Linux InfiniBand Drivers。比如要安装MLNX_OFED-5.8-2.0.3.0 (当前最新版本),则命令为:
      wget https://content.mellanox.com/ofed/MLNX_OFED-5.8-2.0.3.0/MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu20.04-x86_64.tgz
      tar -zxvf MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu20.04-x86_64.tgz
      cd MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu20.04-x86_64
      apt-get install -y python3 gcc quilt build-essential bzip2 dh-python pkg-config dh-autoreconf python3-distutils debhelper make
      ./mlnxofedinstall --add-kernel-support
    • 安装完nv_peer_mem, 如果想查看其状态可以输入如下指令:
      /etc/init.d/nv_peer_mem/ status

      如果发现没有此文件,则可能安装的时候没有默认复制过来,需要复制即可:

      cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf  /etc/infiniband/
      cp /tmp/nvidia-peer-memory-1.3/debian/tmp/etc/init.d/nv_peer_mem   /etc/init.d/ 

  7. 设置环境变量。

    说明:

    MPI路径版本需要匹配,可以通过“ls /usr/mpi/gcc/”查看openmpi的具体版本。

    # 加入到~/.bashrc
    export LD_LIBRARY_PATH=/usr/local/cuda/lib:usr/local/cuda/lib64:/usr/include/nccl.h:/usr/mpi/gcc/openmpi-4.1.2a1/lib:$LD_LIBRARY_PATH
    export PATH=$PATH:/usr/local/cuda/bin:/usr/mpi/gcc/openmpi-4.1.2a1/bin

  8. 安装编译nccl-test。

    cd /root
    git clone https://github.com/NVIDIA/nccl-tests.git
    cd ./nccl-tests
    make  MPI=1 MPI_HOME=/usr/mpi/gcc/openmpi-4.1.2a1 -j 8
    说明:

    编译时需要加上MPI=1的参数,否则无法进行多机之间的测试。

    MPI路径版本需要匹配,可以通过“ls /usr/mpi/gcc/”查看openmpi的具体版本。

  9. nccl-test测试。

    • 单机测试:
      /root/nccl-tests/build/all_reduce_perf -b 8 -e 1024M -f 2 -g 8
    • 多机测试(btl_tcp_if_include后面替换为主网卡名称):
      mpirun --allow-run-as-root --hostfile hostfile -mca btl_tcp_if_include eth0 -mca btl_openib_allow_ib true -x NCCL_DEBUG=INFO -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TC=128 -x NCCL_ALGO=RING -x NCCL_IB_HCA=^mlx5_bond_0 -x LD_LIBRARY_PATH  /root/nccl-tests/build/all_reduce_perf -b 8 -e 11g -f 2 -g 8

      hostfile格式:

      #主机私有IP  单节点进程数
      192.168.20.1 slots=1
      192.168.20.2 slots=1

      NCCL环境变量说明:

      • NCCL_IB_GID_INDEX=3 :数据包走交换机的队列4通道,这是RoCE协议标准。
      • NCCL_IB_TC=128 :使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能会丢包,而且后续的交换机不会支持v1,会导致无法运行。
      • NCCL_ALGO=RING :nccl_test的总线bandwidth是在假定是Ring算法的情况下计算出来的。

        计算公式是有假设的: 总线带宽 = 算法带宽 * 2 ( N-1 ) / N ,算法带宽 = 数据量 / 时间

        但是这个计算公式的前提是用Ring算法,Tree算法的总线带宽不可以这么计算。

        如果Tree算法算出来的总线带宽相当于是相对Ring算法的性能加速。算法计算总耗时减少了,所以用公式算出来的总线带宽也增加了。理论上Tree算法是比Ring算法更优的,但是Tree算法对网络的要求比Ring高,计算可能不太稳定。 Tree算法可以用更少的数据通信量完成all reduce计算,但用来测试性能不太合适。因此,会出现两节点实际带宽100,但测试出速度110,甚至130GB/s的情况。加这个参数以后,2节点和2节点以上情况的速度才会稳定一些。

        说明:
        测试时需要执行mpirun的节点到hostfile中的节点间有免密登录,设置SSH免密登录方法如下:
        1. 客户端生成公私钥。
          执行如下命令,在本地客户端生成公私钥(一路回车默认即可)。
          ssh-keygen

          上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub”(公钥)和“id_rsa”(私钥),可通过如下命令查看:

          cd ~/.ssh
        2. 上传公钥到服务器。
          例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下:
          ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213

          通过如下命令可以看到客户端写入到服务器的id_rsa.pub (公钥)内容:

          cd ~/.ssh
          vim authorized_keys
        3. 测试免密登录。

          客户端通过ssh连接远程服务器,即可免密登录。

          ssh root@192.168.222.213

提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容