Instalación del controlador de GPU NVIDIA y CUDA Toolkit en un BMS P3
Escenarios
Después de crear un BMS P3 con aceleración mediante GPU (usando la variante physical.p3.large), el controlador de GPU NVIDIA y CUDA Toolkit deben instalarse en él para acelerar el cálculo.
Prerrequisitos
- Una EIP ha sido vinculada al BMS.
- Ha obtenido los paquetes de instalación de controladores necesarios.
Tabla 1 Rutas de descarga para el controlador de GPU NVIDIA y CUDA Toolkit SO
Controlador
Cómo obtenerlo
Ubuntu 16.04 y CentOS 7.4
Paquete de instalación del controlador de GPU NVIDIA NVIDIA-Linux-x86_64-384.81.run
http://www.nvidia.com/download/driverResults.aspx/124722/en-us
Paquete de instalación de CUDA Toolkit: cuda_9.0.176_384.81_linux.run
https://developer.nvidia.com/compute/cuda/9.0/Prod/local_installers/cuda_9.0.176_384.81_linux-run
El procedimiento de instalación del controlador de GPU NVIDIA y CUDA Toolkit varía dependiendo del SO.
CentOS 7.4
- Inicie sesión en el BMS de destino y ejecute el siguiente comando para cambiar a usuario root:
su root
- (Opcional) Si los paquetes de dependencias gcc, gcc-c++, make y kernel-devel no existen, ejecute los siguientes comandos para instalar las herramientas de gcc, gcc-c++, make y kernel-devel:
yum install gcc
yum install gcc-c++
yum install make
yum install kernel-devel-`uname -r`
- (Opcional) Agregue el controlador Nouveau a la lista negra.
Si el controlador Nouveau se ha instalado y cargado, realice las siguientes operaciones para agregar el controlador Nouveau a la lista negra para evitar conflictos:
- Agregue blacklist nouveau al final del archivo /etc/modprobe.d/blacklist.conf.
- Ejecute los siguientes comandos para realizar copias de respaldo y reconstruir initramfs:
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
- Ejecute el comando reboot para reiniciar el BMS.
- (Opcional) Si el servicio X se está ejecutando, ejecute el comando systemctl set-default multi-user.target y reinicie el BMS para entrar en modo multiusuario.
- (Opcional) Instale el controlador de GPU NVIDIA.
Si ha seleccionado una versión especificada del controlador de GPU NVIDIA en lugar de una versión contenida en CUDA Toolkit, realice este paso.
- Descargue el paquete de instalación del controlador de GPU NVIDIA NVIDIA-Linux-x86_64-xxx.yy.run de https://www.nvidia.com/Download/index.aspx?lang=en y suba este paquete al directorio /tmp del BMS.
Figura 1 Búsqueda del paquete de controladores de GPU NVIDIA (CentOS 7.4)
- Ejecute el siguiente comando para instalar el controlador de GPU NVIDIA:
- Ejecute el siguiente comando para eliminar el paquete de instalación:
- Descargue el paquete de instalación del controlador de GPU NVIDIA NVIDIA-Linux-x86_64-xxx.yy.run de https://www.nvidia.com/Download/index.aspx?lang=en y suba este paquete al directorio /tmp del BMS.
- Instale CUDA Toolkit.
- Descargue el paquete de instalación de CUDA Toolkit cuda_a.b.cc_xxx.yy_linux.run desde https://developer.nvidia.com/cuda-downloads y suba este paquete al directorio /tmp en el BMS.
- Ejecute el siguiente comando para cambiar el permiso al paquete de instalación:
- Ejecute el siguiente comando para instalar CUDA Toolkit:
./cuda_a.b.cc_xxx.yy_linux.run -toolkit -samples -silent -override --tmpdir=/tmp/
- Ejecute el siguiente comando para eliminar el paquete de instalación:
- Ejecute los siguientes comandos para comprobar si la instalación se realiza correctamente:
cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/
make
./deviceQueryDrv
Si la salida del comando contiene "Result = PASS", el CUDA Toolkit y el controlador de GPU NVIDIA se han instalado correctamente.
Ubuntu 16.04
- Inicie sesión en el BMS de destino y ejecute el siguiente comando para cambiar a usuario root:
sudo root
- (Opcional) Si los paquetes de dependencias de gcc, g++ y make no existen, ejecute los siguientes comandos para instalar las herramientas gcc, g++ y make:
apt-get install gcc
apt-get install g++
apt-get install make
- (Opcional) Agregue el controlador Nouveau a la lista negra.
Si el controlador Nouveau se ha instalado y cargado, realice las siguientes operaciones para agregar el controlador Nouveau a la lista negra para evitar conflictos:
- Agregue la siguiente información al final del archivo /etc/modprobe.d/blacklist.conf:
blacklist nouveau options nouveau modeset=0
- Ejecute los siguientes comandos para realizar copias de respaldo y reconstruir initramfs:
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
sudo update-initramfs -u
- Ejecute el comando sudo reboot para reiniciar el BMS.
- Agregue la siguiente información al final del archivo /etc/modprobe.d/blacklist.conf:
- (Opcional) Si el servicio X se está ejecutando, ejecute el comando systemctl set-default multi-user.target y reinicie el BMS para entrar en modo multiusuario.
- (Opcional) Instale el controlador de GPU NVIDIA.
Si ha seleccionado una versión especificada del controlador de GPU NVIDIA en lugar de una versión contenida en CUDA Toolkit, realice este paso.
- Descargue el paquete de instalación del controlador de GPU NVIDIA NVIDIA-Linux-x86_64-xxx.yy.run.. desde https://www.nvidia.com/Download/index.aspx?lang=en y suba este paquete al directorio /tmp en el BMS.
Figura 2 Buscar en el paquete de controladores de GPU de NVIDIA
- Ejecute el siguiente comando para instalar el controlador de GPU NVIDIA:
- Ejecute el siguiente comando para eliminar el paquete de instalación:
- Descargue el paquete de instalación del controlador de GPU NVIDIA NVIDIA-Linux-x86_64-xxx.yy.run.. desde https://www.nvidia.com/Download/index.aspx?lang=en y suba este paquete al directorio /tmp en el BMS.
- Instale CUDA Toolkit.
- Descargue el paquete de instalación de CUDA Toolkit cuda_a.b.cc_xxx.yy_linux.run desde https://developer.nvidia.com/cuda-downloads y suba este paquete al directorio /tmp en el BMS.
- Ejecute el siguiente comando para cambiar el permiso al paquete de instalación:
- Ejecute el siguiente comando para instalar CUDA Toolkit:
./cuda_a.b.cc_xxx.yy_linux.run -toolkit -samples -silent -override --tmpdir=/tmp/
- Ejecute el siguiente comando para eliminar el paquete de instalación:
- Ejecute los siguientes comandos para comprobar si la instalación se realiza correctamente:
cd /usr/local/cuda/samples/1_Utilities/deviceQueryDrv/
make
./deviceQueryDrv
Si la salida del comando contiene "Result = PASS", el CUDA Toolkit y el controlador de GPU NVIDIA se han instalado correctamente.
- Ejecute el siguiente comando para comprobar si el controlador se está ejecutando correctamente:
Si la información de la GPU se muestra en la salida del comando, el controlador se está ejecutando correctamente.