Como corrigir falhas quando o driver de NVIDIA é usado para iniciar contêineres em nós de GPU?
Ocorreu um evento de falha de agendamento de recursos em um nó de cluster?
Sintoma
Um nó está sendo executado corretamente e possui recursos de GPU. However, the following error information is displayed:
0/9 nodes are available: 9 insufficient nvidia.com/gpu
Análise
- Verifique se o nó está conectado com o rótulo NVIDIA.
- Verifique se o driver de NVIDIA está funcionando corretamente.
Faça logon no nó onde o complemento está sendo executado e visualize o log de instalação do driver no seguinte caminho:
/opt/cloud/cce/nvidia/nvidia_installer.log
Visualize logs de saída padrão do contêiner de NVIDIA.
Filtre o ID do contêiner executando o seguinte comando:
docker ps –a | grep nvidia
Exiba logs executando o seguinte comando:
docker logs Container ID
O que fazer se a versão da NVIDIA relatada por um serviço e a versão da CUDA não corresponderem?
Execute o seguinte comando para verificar a versão da CUDA no recipiente:
cat /usr/local/cuda/version.txt
Verifique se a versão CUDA suportada pela versão do driver de NVIDIA do nó onde o contêiner está localizado contém a versão CUDA do contêiner.