Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Central de ajuda/ Cloud Container Engine/ Perguntas frequentes/ / Execução de nó/ Como corrigir falhas quando o driver de NVIDIA é usado para iniciar contêineres em nós de GPU?
Atualizado em 2025-05-23 GMT+08:00

Como corrigir falhas quando o driver de NVIDIA é usado para iniciar contêineres em nós de GPU?

Ocorreu um evento de falha de agendamento de recursos em um nó de cluster?

Sintoma

Um nó está sendo executado corretamente e possui recursos de GPU. However, the following error information is displayed:

0/9 nodes are available: 9 insufficient nvidia.com/gpu

Análise

  1. Verifique se o nó está conectado com o rótulo NVIDIA.

  2. Verifique se o driver de NVIDIA está funcionando corretamente.
    Faça logon no nó onde o complemento está sendo executado e visualize o log de instalação do driver no seguinte caminho:
    /opt/cloud/cce/nvidia/nvidia_installer.log

    Visualize logs de saída padrão do contêiner de NVIDIA.

    Filtre o ID do contêiner executando o seguinte comando:

    docker ps –a | grep nvidia

    Exiba logs executando o seguinte comando:

    docker logs Container ID

O que fazer se a versão da NVIDIA relatada por um serviço e a versão da CUDA não corresponderem?

Execute o seguinte comando para verificar a versão da CUDA no recipiente:

cat /usr/local/cuda/version.txt

Verifique se a versão CUDA suportada pela versão do driver de NVIDIA do nó onde o contêiner está localizado contém a versão CUDA do contêiner.