Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ Cloud Container Engine/ Perguntas frequentes/ Carga de trabalho/ Anormalidades da carga de trabalho/ O que fazer se ocorrer um erro ao implementar um serviço no nó da GPU?

Atualizado em 2025-05-23 GMT+08:00

Ver PDF

O que fazer se ocorrer um erro ao implementar um serviço no nó da GPU?

Sintoma

As seguintes exceções ocorrem quando os serviços são implementados nos nós da GPU em um cluster do CCE:

A memória da GPU de contêineres não pode ser consultada.
Sete serviços de GPU são implementados, mas apenas dois deles podem ser acessados corretamente. Os erros são reportados durante a inicialização dos cinco serviços restantes.
- As versões de CUDA dos dois serviços que podem ser acessados corretamente são 10.1 e 10.0, respectivamente.
- As versões de CUDA dos serviços com falha também são 10.0 e 10.1.
Os arquivos denominados core.* são encontrados nos contêineres de serviço da GPU. Nenhum desses arquivos existia em nenhuma das implementações anteriores.

Localização de falhas

A versão do driver do complemento da gpu é muito antiga. Depois que um novo driver é baixado e instalado, a falha é corrigida.
As cargas de trabalho não declaram que os recursos da GPU são necessários.

Solução sugerida

Depois que o complemento gpu-device é instalado no nó, a ferramenta de linha de comando nvidia-smi é armazenada no diretório /opt/cloud/cce/nvidia/bin. Se a ferramenta de linha de comando ainda não estiver disponível após a instalação do complemento, a causa comum é que o driver NVIDIA não seja instalado. Verifique se o driver NVIDIA foi baixado com sucesso. (O arquivo do driver pode ser encontrado no diretório /opt/cloud/cce/nvidia.)

Se o endereço do driver estiver incorreto, desinstale o complemento, reinstale-o e configure o endereço correto.

Recomendamos que você armazene o driver NVIDIA no bucket do OBS e defina a política do bucket para leitura pública.

Links úteis

Tópico principal: Anormalidades da carga de trabalho

Feedback

Esta página foi útil?

Sim Não

Deixar um comentário

Obrigado por seus comentários. Estamos trabalhando para melhorar a documentação.

O sistema está ocupado. Tente novamente mais tarde.