Suíte IA do CCE (GPU NVIDIA)
Introdução
NVIDIA GPU é umcomplemento de gerenciamento de dispositivos que suporta GPUs em contêineres. Para usar nós de GPU em um cluster, esse complemento deve estar instalado.
Restrições
- O driver a ser baixado deve ser um arquivo .run.
- Somente os drivers NVIDIA Tesla são suportados, não os drivers GRID.
- Ao instalar ou reinstalar o complemento, verifique se o endereço de download do driver está correto e acessível. O CCE não verifica a validade do endereço.
- O complemento gpu-beta somente permite que você baixe o driver e execute o script de instalação. O status do complemento indica apenas como o complemento está sendo executado, não se o driver foi instalado com êxito.
- O CCE não garante a compatibilidade entre a versão do driver da GPU e a versão da biblioteca CDUA da sua aplicação. Você precisa verificar a compatibilidade por si mesmo.
- Se uma imagem de sistema operacional personalizada tiver um driver de GPU instalado, o CCE não poderá garantir que o driver da GPU seja compatível com outros componentes da GPU, como os componentes de monitoramento usados no CCE.
Instalar o complemento
- Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster. Escolha Add-ons no painel de navegação, localize CCE AI Suite (NVIDIA GPU) à direita e clique em Install.
- Na página Install Add-on, configure as especificações.
Tabela 1 Especificações de complemento Parâmetro
Descrição
Add-on Specifications
Selecione Default ou Custom.
Containers
As cotas de CPU e memória do contêiner permitidas para as especificações adicionais selecionadas.
Se você selecionar Custom, poderá ajustar as especificações do contêiner conforme necessário.
- Configure os parâmetros do complemento.
- NVIDIA Driver: insira o link para baixar o driver NVIDIA. Todos os nós de GPU no cluster usarão esse driver.
- Se o link de download for um endereço de rede pública, por exemplo, https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run, vinculam um EIP a cada nó da GPU. Para obter detalhes sobre como obter o link do driver, consulte Obter o link do driver da rede pública.
- Se o link de download for um URL do OBS, não será necessário vincular um EIP aos nós da GPU. Para obter detalhes sobre como obter o link do driver, consulte Obter o link do driver do OBS.
- Certifique-se de que a versão do driver NVIDIA corresponda ao nó da GPU.
- Depois que a versão do driver for alterada, reinicie o nó para que a alteração tenha efeito.
- Use o driver de versão 470 ou posterior para a Huawei Cloud EulerOS 2.0 no qual o Linux Kernel 5.x é construído e o driver 515 ou posterior para o Ubuntu 22.04.
- NVIDIA Driver: insira o link para baixar o driver NVIDIA. Todos os nós de GPU no cluster usarão esse driver.
- Clique em Install.
A desinstalação do complemento limpará o driver da GPU nos nós. Como resultado, os pods de GPU recém-programados para os nós não podem ser executados corretamente, mas os pods de GPU em execução não são afetados.
Verificar o complemento
Depois que o complemento for instalado, execute o comando nvidia-smi no nó da GPU e no contêiner que agenda os recursos da GPU para verificar a disponibilidade do dispositivo e do driver da GPU.
- Nó da GPU:
# If the add-on version is earlier than 2.0.0, run the following command: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # If the add-on version is 2.0.0 or later and the driver installation path is changed, run the following command: cd /usr/local/nvidia/bin && ./nvidia-smi
- Contêiner:
cd /usr/local/nvidia/bin && ./nvidia-smi
Se as informações da GPU forem retornadas, o dispositivo está disponível e o complemento foi instalado.
Obter o link do driver da rede pública
- Efetue logon no console do CCE.
- Clique em Create Node e selecione o nó da GPU a ser criado na área Specifications. O modelo da placa da GPU do nó é exibido na parte inferior da página.
Figura 1 Visualizar o modelo da placa da GPU
- Visite https://www.nvidia.com/Download/Find.aspx?lang=en.
- Selecione as informações do driver na página NVIDIA Driver Downloads, como mostrado na Figura 2. Operating System deve ser Linux 64-bit.
- Depois de confirmar as informações do driver, clique em SEARCH. Uma página é exibida, mostrando as informações do driver, como mostrado na Figura 3. Clique em Download.
- Obtenha o link do driver de uma das seguintes maneiras:
- Método 1: como mostrado na Figura 4, encontre url=/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run na caixa de endereço do navegador. Em seguida, complemente-o para obter o link do driver https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run. Usando esse método, você deve vincular um EIP a cada nó da GPU.
- Método 2: como mostrado na Figura 4, clique em AGREE & DOWNLOAD para baixar o driver. Em seguida, faça o upload do driver para o OBS e registre o URL do OBS. Usando esse método, você não precisa vincular um EIP aos nós da GPU.
Obter o link do driver do OBS
- Carregue o driver para o OBS e defina o arquivo de driver para leitura pública. Para obter detalhes, consulte Carregamento de um objeto.
Quando o nó for reiniciado, o driver será baixado e instalado novamente. Certifique-se de que o link do bucket do OBS do driver seja válido.
- Na lista de buckets, clique em um nome de intervalo e, em seguida, a página Overview do bucket é exibida.
- No painel de navegação, escolha Objects.
- Selecione o nome do objeto de destino e copie o link do driver na página de detalhes do objeto.
Figura 5 Copiar um link do OBS
Componentes
Componente |
Descrição |
Tipo de recurso |
---|---|---|
nvidia-driver-installer |
Usado para instalar um driver NVIDIA em nós de GPU. |
DaemonSet |