¿Cómo puedo rectificar fallas cuando se utiliza el controlador de NVIDIA para iniciar contenedores en nodos de GPU?
¿Se produjo un evento de error de programación de recursos en un nodo de clúster?
Síntomas
Un nodo se está ejecutando correctamente y tiene recursos de GPU. Sin embargo, se muestra la siguiente información de error:
0/9 nodos disponibles: 9 insuficiente nvidia.com/gpu
Análisis
- Compruebe si el nodo está conectado con la etiqueta de NVIDIA.
- Compruebe si el controlador de NVIDIA se está ejecutando correctamente.
Inicie sesión en el nodo donde se está ejecutando el complemento y vea el log de instalación del controlador en la siguiente ruta:
/opt/cloud/cce/nvidia/nvidia_installer.log
Vea los logs de salida estándar del contenedor de NVIDIA.
Filtre el ID del contenedor ejecutando el siguiente comando:
docker ps –a | grep nvidia
Vea los logs ejecutando el siguiente comando:
docker logs Container ID
¿Qué debo hacer si la versión de NVIDIA notificada por un servicio y la versión de CUDA no coinciden?
Ejecute el siguiente comando para comprobar la versión de CUDA en el contenedor:
cat /usr/local/cuda/version.txt
Compruebe si la versión de CUDA compatible con la versión del controlador de NVIDIA del nodo donde se encuentra el contenedor contiene la versión de CUDA del contenedor.
Ejecución de nodo Preguntas frecuentes
- ¿Qué debo hacer si un clúster está disponible pero algunos nodos no están disponibles?
- ¿Cómo soluciono los problemas de la falla al iniciar sesión de forma remota en un nodo en un clúster de CCE?
- ¿Cómo inicio sesión en un nodo usando una contraseña y restablezco la contraseña?
- ¿Cómo puedo recopilar logs de nodos en un clúster de CCE?
- ¿Qué puedo hacer si la red de contenedores no está disponible después de actualizar el sistema operativo?
- ¿Qué debo hacer si el disco vdb de un nodo está dañado y el nodo no se puede recuperar después del restablecimiento?
- ¿Qué puertos se utilizan para instalar kubelet en los nodos del clúster de CCE?
- ¿Cómo configuro un pod para usar la capacidad de aceleración de un nodo de GPU?
- ¿Qué debo hacer si la suspensión de E/S ocurre ocasionalmente cuando se usan discos SCSI de EVS?
- ¿Qué debo hacer si los logs excesivos de auditoría de Docker afectan a la E/S del disco?
- ¿Cómo soluciono un contenedor o nodo anormal debido a que no hay espacio en disco de thin pool?
- ¿En qué puertos escucha un nodo?
- ¿Cómo puedo rectificar fallas cuando se utiliza el controlador de NVIDIA para iniciar contenedores en nodos de GPU?
Comentarios
¿Le pareció útil esta página?
Deje algún comentariomore