Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-11-28 GMT+08:00

Suíte de IA do CCE (Ascend NPU)

Introdução

O Ascend NPU é um complemento de gerenciamento de dispositivos que suporta NPUs da Huawei em contêineres.

Depois que esse complemento for instalado, você poderá criar nós acelerados pelo Ascend para processar de forma rápida e eficiente a inferência e o reconhecimento de imagem.

Restrições

  • Para usar nós acelerados pelo Ascend em um cluster, o complemento Ascend NPU deve estar instalado.
  • Depois que um nó acelerado por IA for migrado, o nó será redefinido. Reinstale manualmente o driver NPU.

Instalar o complemento

  1. Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster. Escolha Add-ons no painel de navegação, localize CCE AI Suite (Ascend NPU) à direita e clique em Install.
  2. Defina os parâmetros de NPU. O complemento usa os seguintes parâmetros por padrão. As configurações de NPU padrão fornecidas pelo complemento podem satisfazer a maioria dos cenários e não requerem alterações.

    {
    	"check_frequency_failed_threshold": 100,
    	"check_frequency_fall_times": 3,
    	"check_frequency_gate": false,
    	"check_frequency_recover_threshold": 100,
    	"check_frequency_rise_times": 2,
    	"container_path": "/usr/local/HiAI_unused",
    	"host_path": "/usr/local/HiAI_unused"
    }

  3. Clique em Install.

Componentes

Tabela 1 Componentes de huawei-npu

Componente

Descrição

Tipo de recurso

npu-driver-installer

Usado para instalar um driver NPU em nós de NPU.

DaemonSet

Como verificar se o driver NPU foi instalado em um nó

Depois de garantir que o driver foi instalado com êxito, reinicie o nó para que o driver entre em vigor. Caso contrário, o driver não poderá entrar em vigor e os recursos de NPU não estarão disponíveis. Para verificar se o driver está instalado, execute as seguintes operações:

  1. Na página Add-ons, clique em CCE AI Suite (Ascend NPU).

  2. Verifique se o nó em que o npu-driver-installer está implementado está no estado Running.

    Se o nó for reiniciado antes da instalação do driver NPU, a instalação do driver poderá falhar e uma mensagem será exibida na página Nodes do cluster indicando que o driver Ascend não está pronto. Nesse caso, desinstale o driver NPU do nó e reinicie o npu-driver-installer para reinstalar o driver NPU. Depois de confirmar que o driver está instalado, reinicie o nó. Para obter detalhes sobre como desinstalar o driver, consulte Desinstalar o driver NPU.

Desinstalar o driver NPU

Faça logon no nó, obtenha os registros de operação do driver no arquivo /var/log/ascend_seclog/operation.log e localize o pacote de execução do driver usado na última instalação. Se o arquivo lof não existir, o driver será instalado usando o pacote combinado de npu_x86_latest.run ou npu_arm_latest.run. Depois de encontrar o pacote de instalação do driver, execute o comando bash {run package name} --uninstall para desinstalar o driver e reiniciar o nó conforme solicitado.

  1. Efetue logon no nó em que o driver NPU precisa ser desinstalado e localize o arquivo /var/log/ascend_seclog/operation.log.
  2. Se o arquivo /var/log/ascend_seclog/operation.log puder ser encontrado, visualize o registro de instalação do driver para encontrar o registro de instalação do driver.

    Se o arquivo /var/log/ascend_seclog/operation.log não puder ser encontrado, o driver pode ser instalado usando o pacote combinado de npu_x86_latest.run ou npu_arm_latest.run. Você pode confirmar isso verificando se o diretório /usr/local/HiAI/driver/ existe.

    O pacote combinado do driver NPU é armazenado no diretório /root/d310_driver, e outros pacotes de instalação do driver são armazenados no diretório /root/npu-drivers.

  3. Depois de encontrar o pacote de instalação do driver, execute o comando bash {run package path} --uninstall para desinstalar o driver. O seguinte usa Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run como um exemplo:

    bash /root/npu-drivers/Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run --uninstall

  4. Reinicie o nó conforme solicitado. (A instalação e a desinstalação do driver NPU atual terão efeito somente depois que o nó for reiniciado.)