¿Qué debo hacer si se produce un error al desplegar un servicio en el nodo de GPU?
Síntoma
Las siguientes excepciones se producen cuando los servicios se despliegan en los nodos de la GPU en un clúster de CCE:
- No se puede consultar la memoria de la GPU de los contenedores.
- Se despliegan siete servicios de GPU, pero solo se puede acceder a dos de ellos correctamente. Los errores se notifican durante el inicio de los cinco servicios restantes.
- Las versiones de CUDA de los dos servicios a los que se puede acceder correctamente son 10.1 y 10.0, respectivamente.
- Las versiones de CUDA de los servicios que fallan también son 10.0 y 10.1.
- Los archivos llamados core.* se encuentran en los contenedores de servicio de la GPU. No existían los archivos de este tipo en ninguno de los despliegues anteriores.
Localización de fallas
- La versión del controlador del complemento gpu es demasiado antigua. Después de descargar e instalar un nuevo controlador, se rectifica la falla.
- Las cargas de trabajo no declaran que se requieren los recursos de GPU.
Solución sugerida
Después de instalar el complemento gpu-device en el nodo, la herramienta de línea de comandos nvidia-smi se almacena en el directorio /opt/cloud/cce/nvidia/bin. Si la herramienta de línea de comandos aún no está disponible después de instalar el complemento, la causa común es que el controlador de NVIDIA no se puede instalar. Compruebe si el controlador de NVIDIA se ha descargado correctamente. (El archivo del controlador se puede encontrar en el directorio /opt/cloud/cce/nvidia.)
Si la dirección del controlador es incorrecta, desinstale el complemento, vuelva a instalarlo y configure la dirección correcta.
Se recomienda almacenar el controlador de NVIDIA en el bucket de OBS y establecer la política del bucket para que sea de lectura pública.