Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-11-28 GMT+08:00

Suíte IA do CCE (GPU NVIDIA)

Introdução

NVIDIA GPU é umcomplemento de gerenciamento de dispositivos que suporta GPUs em contêineres. Para usar nós de GPU em um cluster, esse complemento deve estar instalado.

Restrições

  • O driver a ser baixado deve ser um arquivo .run.
  • Somente os drivers NVIDIA Tesla são suportados, não os drivers GRID.
  • Ao instalar ou reinstalar o complemento, verifique se o endereço de download do driver está correto e acessível. O CCE não verifica a validade do endereço.
  • O complemento gpu-beta somente permite que você baixe o driver e execute o script de instalação. O status do complemento indica apenas como o complemento está sendo executado, não se o driver foi instalado com êxito.
  • O CCE não garante a compatibilidade entre a versão do driver da GPU e a versão da biblioteca CDUA da sua aplicação. Você precisa verificar a compatibilidade por si mesmo.
  • Se uma imagem de sistema operacional personalizada tiver um driver de GPU instalado, o CCE não poderá garantir que o driver da GPU seja compatível com outros componentes da GPU, como os componentes de monitoramento usados no CCE.

Instalar o complemento

  1. Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster. Escolha Add-ons no painel de navegação, localize CCE AI Suite (NVIDIA GPU) à direita e clique em Install.
  2. Na página Install Add-on, configure as especificações.

    Tabela 1 Especificações de complemento

    Parâmetro

    Descrição

    Add-on Specifications

    Selecione Default ou Custom.

    Containers

    As cotas de CPU e memória do contêiner permitidas para as especificações adicionais selecionadas.

    Se você selecionar Custom, poderá ajustar as especificações do contêiner conforme necessário.

  3. Configure os parâmetros do complemento.

    • NVIDIA Driver: insira o link para baixar o driver NVIDIA. Todos os nós de GPU no cluster usarão esse driver.
      • Se o link de download for um endereço de rede pública, por exemplo, https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run, vinculam um EIP a cada nó da GPU. Para obter detalhes sobre como obter o link do driver, consulte Obter o link do driver da rede pública.
      • Se o link de download for um URL do OBS, não será necessário vincular um EIP aos nós da GPU. Para obter detalhes sobre como obter o link do driver, consulte Obter o link do driver do OBS.
      • Certifique-se de que a versão do driver NVIDIA corresponda ao nó da GPU.
      • Depois que a versão do driver for alterada, reinicie o nó para que a alteração tenha efeito.
      • Use o driver de versão 470 ou posterior para a Huawei Cloud EulerOS 2.0 no qual o Linux Kernel 5.x é construído e o driver 515 ou posterior para o Ubuntu 22.04.

  4. Clique em Install.

    A desinstalação do complemento limpará o driver da GPU nos nós. Como resultado, os pods de GPU recém-programados para os nós não podem ser executados corretamente, mas os pods de GPU em execução não são afetados.

Verificar o complemento

Depois que o complemento for instalado, execute o comando nvidia-smi no nó da GPU e no contêiner que agenda os recursos da GPU para verificar a disponibilidade do dispositivo e do driver da GPU.

  • Nó da GPU:
    # If the add-on version is earlier than 2.0.0, run the following command:
    cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
    
    # If the add-on version is 2.0.0 or later and the driver installation path is changed, run the following command:
    cd /usr/local/nvidia/bin && ./nvidia-smi
  • Contêiner:
    cd /usr/local/nvidia/bin && ./nvidia-smi

Se as informações da GPU forem retornadas, o dispositivo está disponível e o complemento foi instalado.

Obter o link do driver da rede pública

  1. Efetue logon no console do CCE.
  2. Clique em Create Node e selecione o nó da GPU a ser criado na área Specifications. O modelo da placa da GPU do nó é exibido na parte inferior da página.

    Figura 1 Visualizar o modelo da placa da GPU

  1. Visite https://www.nvidia.com/Download/Find.aspx?lang=en.
  2. Selecione as informações do driver na página NVIDIA Driver Downloads, como mostrado na Figura 2. Operating System deve ser Linux 64-bit.

    Figura 2 Definir parâmetros

  3. Depois de confirmar as informações do driver, clique em SEARCH. Uma página é exibida, mostrando as informações do driver, como mostrado na Figura 3. Clique em Download.

    Figura 3 Informação do driver

  4. Obtenha o link do driver de uma das seguintes maneiras:

    • Método 1: como mostrado na Figura 4, encontre url=/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run na caixa de endereço do navegador. Em seguida, complemente-o para obter o link do driver https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run. Usando esse método, você deve vincular um EIP a cada nó da GPU.
    • Método 2: como mostrado na Figura 4, clique em AGREE & DOWNLOAD para baixar o driver. Em seguida, faça o upload do driver para o OBS e registre o URL do OBS. Usando esse método, você não precisa vincular um EIP aos nós da GPU.
      Figura 4 Obtenção do link

Obter o link do driver do OBS

  1. Carregue o driver para o OBS e defina o arquivo de driver para leitura pública. Para obter detalhes, consulte Carregamento de um objeto.

    Quando o nó for reiniciado, o driver será baixado e instalado novamente. Certifique-se de que o link do bucket do OBS do driver seja válido.

  2. Na lista de buckets, clique em um nome de intervalo e, em seguida, a página Overview do bucket é exibida.
  3. No painel de navegação, escolha Objects.
  4. Selecione o nome do objeto de destino e copie o link do driver na página de detalhes do objeto.

    Figura 5 Copiar um link do OBS

Componentes

Tabela 2 Componente da GPU

Componente

Descrição

Tipo de recurso

nvidia-driver-installer

Usado para instalar um driver NVIDIA em nós de GPU.

DaemonSet