Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ Cloud Container Engine/ Guia de usuário/ Complementos/ Suíte IA do CCE (GPU NVIDIA)

Atualizado em 2024-11-28 GMT+08:00

Ver PDF

Suíte IA do CCE (GPU NVIDIA)

Introdução

NVIDIA GPU é umcomplemento de gerenciamento de dispositivos que suporta GPUs em contêineres. Para usar nós de GPU em um cluster, esse complemento deve estar instalado.

Restrições

O driver a ser baixado deve ser um arquivo .run.
Somente os drivers NVIDIA Tesla são suportados, não os drivers GRID.
Ao instalar ou reinstalar o complemento, verifique se o endereço de download do driver está correto e acessível. O CCE não verifica a validade do endereço.
O complemento gpu-beta somente permite que você baixe o driver e execute o script de instalação. O status do complemento indica apenas como o complemento está sendo executado, não se o driver foi instalado com êxito.
O CCE não garante a compatibilidade entre a versão do driver da GPU e a versão da biblioteca CDUA da sua aplicação. Você precisa verificar a compatibilidade por si mesmo.
Se uma imagem de sistema operacional personalizada tiver um driver de GPU instalado, o CCE não poderá garantir que o driver da GPU seja compatível com outros componentes da GPU, como os componentes de monitoramento usados no CCE.

Instalar o complemento

Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster. Escolha Add-ons no painel de navegação, localize CCE AI Suite (NVIDIA GPU) à direita e clique em Install.

Na página Install Add-on, configure as especificações.

**Tabela 1** Especificações de complemento
Parâmetro	Descrição
Add-on Specifications	Selecione Default ou Custom.
Containers	As cotas de CPU e memória do contêiner permitidas para as especificações adicionais selecionadas. Se você selecionar Custom, poderá ajustar as especificações do contêiner conforme necessário.

Configure os parâmetros do complemento.
- NVIDIA Driver: insira o link para baixar o driver NVIDIA. Todos os nós de GPU no cluster usarão esse driver.
  - Se o link de download for um endereço de rede pública, por exemplo, https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run, vinculam um EIP a cada nó da GPU. Para obter detalhes sobre como obter o link do driver, consulte Obter o link do driver da rede pública.
  - Se o link de download for um URL do OBS, não será necessário vincular um EIP aos nós da GPU. Para obter detalhes sobre como obter o link do driver, consulte Obter o link do driver do OBS.
  - Certifique-se de que a versão do driver NVIDIA corresponda ao nó da GPU.
  - Depois que a versão do driver for alterada, reinicie o nó para que a alteração tenha efeito.
  - Use o driver de versão 470 ou posterior para a Huawei Cloud EulerOS 2.0 no qual o Linux Kernel 5.x é construído e o driver 515 ou posterior para o Ubuntu 22.04.
Clique em Install.

A desinstalação do complemento limpará o driver da GPU nos nós. Como resultado, os pods de GPU recém-programados para os nós não podem ser executados corretamente, mas os pods de GPU em execução não são afetados.

Verificar o complemento

Depois que o complemento for instalado, execute o comando nvidia-smi no nó da GPU e no contêiner que agenda os recursos da GPU para verificar a disponibilidade do dispositivo e do driver da GPU.

Nó da GPU:

# If the add-on version is earlier than 2.0.0, run the following command:
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi

# If the add-on version is 2.0.0 or later and the driver installation path is changed, run the following command:
cd /usr/local/nvidia/bin && ./nvidia-smi

Contêiner:

cd /usr/local/nvidia/bin && ./nvidia-smi

Se as informações da GPU forem retornadas, o dispositivo está disponível e o complemento foi instalado.

Clique para ampliar

Obter o link do driver da rede pública

Efetue logon no console do CCE.
Clique em Create Node e selecione o nó da GPU a ser criado na área Specifications. O modelo da placa da GPU do nó é exibido na parte inferior da página.

Figura 1 Visualizar o modelo da placa da GPU

Visite https://www.nvidia.com/Download/Find.aspx?lang=en.
Selecione as informações do driver na página NVIDIA Driver Downloads, como mostrado na Figura 2. Operating System deve ser Linux 64-bit.

Figura 2 Definir parâmetros
Depois de confirmar as informações do driver, clique em SEARCH. Uma página é exibida, mostrando as informações do driver, como mostrado na Figura 3. Clique em Download.

Figura 3 Informação do driver
Obtenha o link do driver de uma das seguintes maneiras:
- Método 1: como mostrado na Figura 4, encontre url=/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run na caixa de endereço do navegador. Em seguida, complemente-o para obter o link do driver https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run. Usando esse método, você deve vincular um EIP a cada nó da GPU.
- Método 2: como mostrado na Figura 4, clique em AGREE & DOWNLOAD para baixar o driver. Em seguida, faça o upload do driver para o OBS e registre o URL do OBS. Usando esse método, você não precisa vincular um EIP aos nós da GPU.
  Figura 4 Obtenção do link

Obter o link do driver do OBS

Carregue o driver para o OBS e defina o arquivo de driver para leitura pública. Para obter detalhes, consulte Carregamento de um objeto.

Quando o nó for reiniciado, o driver será baixado e instalado novamente. Certifique-se de que o link do bucket do OBS do driver seja válido.
Na lista de buckets, clique em um nome de intervalo e, em seguida, a página Overview do bucket é exibida.
No painel de navegação, escolha Objects.
Selecione o nome do objeto de destino e copie o link do driver na página de detalhes do objeto.

Figura 5 Copiar um link do OBS