Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> Cloud Container Engine> Preguntas frecuentes> Nodo> Ejecución de nodo> ¿Cómo puedo rectificar fallas cuando se utiliza el controlador de NVIDIA para iniciar contenedores en nodos de GPU?
Actualización más reciente 2023-08-08 GMT+08:00

¿Cómo puedo rectificar fallas cuando se utiliza el controlador de NVIDIA para iniciar contenedores en nodos de GPU?

¿Se produjo un evento de error de programación de recursos en un nodo de clúster?

Síntomas

Un nodo se está ejecutando correctamente y tiene recursos de GPU. Sin embargo, se muestra la siguiente información de error:

0/9 nodos disponibles: 9 insuficiente nvidia.com/gpu

Análisis

  1. Compruebe si el nodo está conectado con la etiqueta de NVIDIA.

  2. Compruebe si el controlador de NVIDIA se está ejecutando correctamente.
    Inicie sesión en el nodo donde se está ejecutando el complemento y vea el log de instalación del controlador en la siguiente ruta:
    /opt/cloud/cce/nvidia/nvidia_installer.log

    Vea los logs de salida estándar del contenedor de NVIDIA.

    Filtre el ID del contenedor ejecutando el siguiente comando:

    docker ps –a | grep nvidia

    Vea los logs ejecutando el siguiente comando:

    docker logs Container ID

¿Qué debo hacer si la versión de NVIDIA notificada por un servicio y la versión de CUDA no coinciden?

Ejecute el siguiente comando para comprobar la versión de CUDA en el contenedor:

cat /usr/local/cuda/version.txt

Compruebe si la versión de CUDA compatible con la versión del controlador de NVIDIA del nodo donde se encuentra el contenedor contiene la versión de CUDA del contenedor.

Ejecución de nodo Preguntas frecuentes

more