Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda/ Bare Metal Server/ Guía del usuario/ Instancia/ Instalación de controladores y kits de herramientas/ Instalación del controlador de GPU NVIDIA y CUDA Toolkit en un BMS P1
Actualización más reciente 2023-03-20 GMT+08:00

Instalación del controlador de GPU NVIDIA y CUDA Toolkit en un BMS P1

Escenarios

Después de crear un BMS P1 acelerado por GPU (usando la variante physical.p1.large), el controlador de GPU NVIDIA y CUDA Toolkit deben instalarse en él para acelerar el cálculo.

Prerrequisitos

El procedimiento de instalación del controlador de GPU NVIDIA y CUDA Toolkit varía dependiendo del SO.

CentOS 7.4

  1. Inicie sesión en el BMS de destino y ejecute el siguiente comando para cambiar a usuario root:

    su root

  2. (Opcional) Si los paquetes de dependencias gcc, gcc-c++, make y kernel-devel no existen, ejecute los siguientes comandos para instalar las herramientas de gcc, gcc-c++, make y kernel-devel:

    yum install gcc

    yum install gcc-c++

    yum install make

    yum install kernel-devel-`uname -r`

  3. (Opcional) Agregue el controlador Nouveau a la lista negra.

    Si el controlador Nouveau se ha instalado y cargado, realice las siguientes operaciones para agregar el controlador Nouveau a la lista negra para evitar conflictos:

    1. Agregue blacklist nouveau al final del archivo /etc/modprobe.d/blacklist.conf.
    2. Ejecute los siguientes comandos para realizar copias de respaldo y reconstruir initramfs:

      mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

      dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

    3. Ejecute el comando reboot para reiniciar el BMS.

  4. (Opcional) Si el servicio X se está ejecutando, ejecute el comando systemctl set-default multi-user.target y reinicie el BMS para entrar en modo multiusuario.
  5. (Opcional) Instale el controlador de GPU NVIDIA.

    Si ha seleccionado una versión especificada del controlador de GPU NVIDIA en lugar de una versión contenida en CUDA Toolkit, realice este paso.

    1. Descargue el paquete de instalación del controlador de GPU NVIDIA NVIDIA-Linux-x86_64-xxx.yy.run de https://www.nvidia.com/Download/index.aspx?lang=en y suba este paquete al directorio /tmp del BMS.
      Figura 1 Búsqueda del paquete de controladores de GPU NVIDIA (CentOS 7.4)
    2. Ejecute el siguiente comando para instalar el controlador de GPU NVIDIA:

      sh ./NVIDIA-Linux-x86_64-xxx.yy.run

    3. Ejecute el siguiente comando para eliminar el paquete de instalación:

      rm -f NVIDIA-Linux-x86_64-xxx.yy.run

  6. Instale CUDA Toolkit.

    1. Descargue el paquete de instalación de CUDA Toolkit cuda_a.b.cc_xxx.yy_linux.run desde https://developer.nvidia.com/cuda-downloads y suba este paquete al directorio /tmp en el BMS.
    2. Ejecute el siguiente comando para cambiar el permiso al paquete de instalación:

      chmod +x cuda_a.b.cc_xxx.yy_linux.run

    3. Ejecute el siguiente comando para instalar CUDA Toolkit:

      ./cuda_a.b.cc_xxx.yy_linux.run -toolkit -samples -silent -override --tmpdir=/tmp/

    4. Ejecute el siguiente comando para eliminar el paquete de instalación:

      rm -f cuda_a.b.cc_xxx.yy_linux.run

    5. Ejecute los siguientes comandos para comprobar si la instalación se realiza correctamente:

      cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/

      make

      ./deviceQueryDrv

      Si la salida del comando contiene "Result = PASS", el CUDA Toolkit y el controlador de GPU NVIDIA se han instalado correctamente.

Ubuntu 16.04

  1. Inicie sesión en el BMS de destino y ejecute el siguiente comando para cambiar a usuario root:

    sudo root

  2. (Opcional) Si los paquetes de dependencias de gcc, g++ y make no existen, ejecute los siguientes comandos para instalar las herramientas gcc, g++ y make:

    apt-get install gcc

    apt-get install g++

    apt-get install make

  3. (Opcional) Agregue el controlador Nouveau a la lista negra.

    Si el controlador Nouveau se ha instalado y cargado, realice las siguientes operaciones para agregar el controlador Nouveau a la lista negra para evitar conflictos:

    1. Agregue la siguiente información al final del archivo /etc/modprobe.d/blacklist.conf:
      blacklist nouveau
      options nouveau modeset=0
    2. Ejecute los siguientes comandos para realizar copias de respaldo y reconstruir initramfs:

      mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

      sudo update-initramfs -u

    3. Ejecute el comando sudo reboot para reiniciar el BMS.

  4. (Opcional) Si el servicio X se está ejecutando, ejecute el comando systemctl set-default multi-user.target y reinicie el BMS para entrar en modo multiusuario.
  5. (Opcional) Instale el controlador de GPU NVIDIA.

    Si ha seleccionado una versión especificada del controlador de GPU NVIDIA en lugar de una versión contenida en CUDA Toolkit, realice este paso.

    1. Descargue el paquete de instalación del controlador de GPU NVIDIA NVIDIA-Linux-x86_64-xxx.yy.run de https://www.nvidia.com/Download/index.aspx?lang=en y suba este paquete al directorio /tmp del BMS.
      Figura 2 Búsqueda del paquete de controladores de GPU NVIDIA (Ubuntu 16.04)
    2. Ejecute el siguiente comando para instalar el controlador de GPU NVIDIA:

      sh ./NVIDIA-Linux-x86_64-xxx.yy.run

    3. Ejecute el siguiente comando para eliminar el paquete de instalación:

      rm -f NVIDIA-Linux-x86_64-xxx.yy.run

  6. Instale CUDA Toolkit.

    1. Descargue el paquete de instalación de CUDA Toolkit cuda_a.b.cc_xxx.yy_linux.run desde https://developer.nvidia.com/cuda-downloads y suba este paquete al directorio /tmp en el BMS.
    2. Ejecute el siguiente comando para cambiar el permiso al paquete de instalación:

      chmod +x cuda_a.b.cc_xxx.yy_linux.run

    3. Ejecute el siguiente comando para instalar CUDA Toolkit:

      ./cuda_a.b.cc_xxx.yy_linux.run -toolkit -samples -silent -override --tmpdir=/tmp/

    4. Ejecute el siguiente comando para eliminar el paquete de instalación:

      rm -f cuda_a.b.cc_xxx.yy_linux.run

    5. Ejecute los siguientes comandos para comprobar si la instalación se realiza correctamente:

      cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/

      make

      ./deviceQueryDrv

      Si la salida del comando contiene "Result = PASS", el CUDA Toolkit y el controlador de GPU NVIDIA se han instalado correctamente.