O que fazer se ocorrer um erro ao implementar um serviço no nó da GPU?
Sintoma
As seguintes exceções ocorrem quando os serviços são implementados nos nós da GPU em um cluster do CCE:
- A memória da GPU de contêineres não pode ser consultada.
- Sete serviços de GPU são implementados, mas apenas dois deles podem ser acessados corretamente. Os erros são reportados durante a inicialização dos cinco serviços restantes.
- As versões de CUDA dos dois serviços que podem ser acessados corretamente são 10.1 e 10.0, respectivamente.
- As versões de CUDA dos serviços com falha também são 10.0 e 10.1.
- Os arquivos denominados core.* são encontrados nos contêineres de serviço da GPU. Nenhum desses arquivos existia em nenhuma das implementações anteriores.
Localização de falhas
- A versão do driver do complemento da gpu é muito antiga. Depois que um novo driver é baixado e instalado, a falha é corrigida.
- As cargas de trabalho não declaram que os recursos da GPU são necessários.
Solução sugerida
Depois que o complemento gpu-device é instalado no nó, a ferramenta de linha de comando nvidia-smi é armazenada no diretório /opt/cloud/cce/nvidia/bin. Se a ferramenta de linha de comando ainda não estiver disponível após a instalação do complemento, a causa comum é que o driver NVIDIA não seja instalado. Verifique se o driver NVIDIA foi baixado com sucesso. (O arquivo do driver pode ser encontrado no diretório /opt/cloud/cce/nvidia.)
Se o endereço do driver estiver incorreto, desinstale o complemento, reinstale-o e configure o endereço correto.

Recomendamos que você armazene o driver NVIDIA no bucket do OBS e defina a política do bucket para leitura pública.