Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda/ Cloud Container Engine/ Guía del usuario/ Complementos/ gpu-device-plugin (anteriormente gpu-beta)
Actualización más reciente 2024-09-10 GMT+08:00

gpu-device-plugin (anteriormente gpu-beta)

Presentación

gpu-device-plugin (anteriormente gpu-beta) es un complemento de gestión de dispositivos que admite GPU de contenedores. Si se utilizan nodos de GPU en el clúster, este complemento debe estar instalado.

Notas y restricciones

  • El controlador que se va a descargar debe ser un archivo .run.
  • Solo se admiten los controladores de NVIDIA Tesla, no los controladores de GRID.
  • Al instalar o reinstalar el complemento, asegúrese de que la dirección de descarga del controlador sea correcta y accesible. CCE no verifica la validez de la dirección.
  • El complemento gpu-device-plugin solo permite descargar el controlador y ejecutar el script de instalación. El estado del complemento solo indica cómo se está ejecutando el complemento, no si el controlador se ha instalado correctamente.
  • Si utiliza nodos de multi-GPU A100 o de A800, debe instalar manualmente el servicio nvidia-fabricmanager que coincida con la versión del controlador. Para obtener más información, véase Instalación del servicio de nvidia-fabricmanager.

Instalación del complemento

  1. Inicie sesión en la consola de CCE y acceda a la consola del clúster. Elija Add-ons en el panel de navegación, localice gpu-device-plugin a la derecha y haga clic en Install.
  2. Configure el enlace del controlador.

    • Si el enlace de descarga es una dirección de red pública, por ejemplo https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run une una EIP a cada nodo de GPU. Para obtener más información sobre cómo obtener el enlace del controlador, consulte Obtención del enlace del conductor de la red pública.
    • Si el enlace de descarga es un URL de OBS, no es necesario vincular una EIP a los nodos de la GPU. Para obtener más información sobre cómo obtener el enlace del controlador, consulte Obtención del enlace del conductor de OBS.
    • Asegúrese de que la versión del controlador de NVIDIA coincida con el nodo de la GPU.
    • Después de cambiar la versión del controlador, reinicie el nodo para que el cambio surta efecto.
    • Para los sistemas del kernel de Linux 5.x, como Huawei Cloud EulerOS 2.0 o Ubuntu 22.04, se recomienda utilizar el controlador 470 o posterior.

  3. Haga clic en Install.

Comprobación del complemento

Después de instalar el complemento, ejecute el comando nvidia-smi en el nodo de GPU y el contenedor que programa los recursos de GPU para verificar la disponibilidad del dispositivo y el controlador de GPU.

Nodo de GPU:
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi

Contenedor:

cd /usr/local/nvidia/bin && ./nvidia-smi

Si se devuelve la información de la GPU, el dispositivo estará disponible y el complemento se instalará correctamente.

Obtención del enlace del conductor de la red pública

  1. Inicie sesión en la consola de CCE.
  2. Haga clic en Create Node y seleccione el nodo de GPU que se creará en el área Specifications. El modelo de tarjeta de GPU del nodo se muestra en la parte inferior de la página.

    Figura 1 Consulta del modelo de tarjeta de GPU

  1. Visite https://www.nvidia.com/Download/Find.aspx?lang=en.
  2. Seleccione la información del controlador en la página NVIDIA Driver Downloads como se muestra en Figura 2. Operating System debe ser Linux 64-bit.

    Figura 2 Configuración de parámetros

  3. Después de confirmar la información del controlador, haga clic en SEARCH. Se muestra una página en la que se muestra la información del conductor, como se muestra en Figura 3. Haga clic en DOWNLOAD.

    Figura 3 Información del conductor

  4. Obtenga el enlace del controlador de cualquiera de las siguientes maneras:

    • Método 1: Como se muestra en Figura 4, busque url=/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run en el cuadro de dirección del navegador. A continuación, complementar para obtener el enlace conductor https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run. Al utilizar este método, debe vincular una EIP a cada nodo de la GPU.
    • Método 2: Como se muestra en Figura 4, haga clic en AGREE & DOWNLOAD para descargar el controlador. A continuación, cargue el controlador en OBS y registre el URL de OBS. Al utilizar este método, no es necesario vincular una EIP a los nodos de la GPU.
      Figura 4 Obtención del enlace

Obtención del enlace del conductor de OBS

  1. Cargue el controlador a OBS y establezca el archivo del controlador en lectura pública. Para obtener más información, consulte Carga de un archivo.

    Cuando se reinicia el nodo, el controlador se descargará e instalará de nuevo. Asegúrese de que el enlace de bucket de OBS del controlador es válido.

  2. En el panel de navegación de la consola OBS, seleccione Object Storage.
  3. En la lista de bucket, haga clic en un nombre de bucket y, a continuación, se mostrará la página Overview del bucket.
  4. En el panel de navegación, elija Objects.
  5. Seleccione el objeto de destino y copie el enlace del controlador en la página de detalles del objeto.

Instalación del servicio de nvidia-fabricmanager

Las GPU A100 y A800 son compatibles con NvLink y NvSwitch. Si utiliza un nodo con varias GPU, debe instalar el servicio nvidia-fabricmanager correspondiente a la versión del controlador para habilitar la interconexión entre GPU. De lo contrario, es posible que los pods de GPU no se utilicen.

Esta sección utiliza el controlador 470.103.01 como ejemplo. Puede realizar los siguientes pasos para instalar el controlador. Reemplace la versión del controlador según sea necesario.

  1. Inicie sesión en el nodo de la GPU de destino. Una EIP debe estar enlazada al nodo para descargar el servicio nvidia-fabricmanager.
  2. Instale el servicio nvidia-fabricmanager correspondiente a la versión del controlador. Puede descargar el paquete de instalación correspondiente a su sistema operativo y la versión del controlador desde el sitio web oficial.

    • CentOS
      Tome CentOS 7 como ejemplo:
      driver_version=470.103.01
      wget https://developer.download.nvidia.cn/compute/cuda/repos/rhel7/x86_64/cuda-drivers-fabricmanager-${driver_version}-1.x86_64.rpm
      rpm -ivh nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
    • Otros SO como Ubuntu
      Tome Ubuntu 18.04 como ejemplo:
      driver_version=470.103.01
      driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
      wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64/nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
      dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb

  3. Inicie el servicio nvidia-fabricmanager.

    systemctl enable nvidia-fabricmanager
    systemctl start nvidia-fabricmanager

  4. Ejecute el siguiente comando para comprobar el estado del servicio nvidia-fabricmanager:

    systemctl status nvidia-fabricmanager

Historial de cambios

Tabla 1 Versiones de complementos de CCE

Versión del complemento

Versión de clúster admitida

1.2.28

/v1.(19|21|23|25).*/

1.2.24

/v1.(19|21|23|25).*/

1.2.20

/v1.(19|21|23|25).*/

1.2.17

/v1.(15|17|19|21|23).*/

1.2.15

/v1.(15|17|19|21|23).*/

1.2.11

/v1.(15|17|19|21).*/

1.2.10

/v1.(15|17|19|21).*/

1.2.9

/v1.(15|17|19|21).*/

1.2.2

/v1.(15|17|19).*/

1.2.1

/v1.(15|17|19).*/

1.1.13

/v1.(13|15|17).*/

1.1.11

/v1.(15|17).*/