Suíte de IA do CCE (Ascend NPU)
Introdução
O Ascend NPU é um complemento de gerenciamento de dispositivos que suporta NPUs da Huawei em contêineres.
Depois que esse complemento for instalado, você poderá criar nós acelerados pelo Ascend para processar de forma rápida e eficiente a inferência e o reconhecimento de imagem.
Restrições
- Para usar nós acelerados pelo Ascend em um cluster, o complemento Ascend NPU deve estar instalado.
- Depois que um nó acelerado por IA for migrado, o nó será redefinido. Reinstale manualmente o driver NPU.
Instalar o complemento
- Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster. Escolha Add-ons no painel de navegação, localize CCE AI Suite (Ascend NPU) à direita e clique em Install.
- Defina os parâmetros de NPU. O complemento usa os seguintes parâmetros por padrão. As configurações de NPU padrão fornecidas pelo complemento podem satisfazer a maioria dos cenários e não requerem alterações.
{ "check_frequency_failed_threshold": 100, "check_frequency_fall_times": 3, "check_frequency_gate": false, "check_frequency_recover_threshold": 100, "check_frequency_rise_times": 2, "container_path": "/usr/local/HiAI_unused", "host_path": "/usr/local/HiAI_unused" }
- Clique em Install.
Componentes
Componente |
Descrição |
Tipo de recurso |
---|---|---|
npu-driver-installer |
Usado para instalar um driver NPU em nós de NPU. |
DaemonSet |
Como verificar se o driver NPU foi instalado em um nó
Depois de garantir que o driver foi instalado com êxito, reinicie o nó para que o driver entre em vigor. Caso contrário, o driver não poderá entrar em vigor e os recursos de NPU não estarão disponíveis. Para verificar se o driver está instalado, execute as seguintes operações:
- Na página Add-ons, clique em CCE AI Suite (Ascend NPU).
- Verifique se o nó em que o npu-driver-installer está implementado está no estado Running.
Se o nó for reiniciado antes da instalação do driver NPU, a instalação do driver poderá falhar e uma mensagem será exibida na página Nodes do cluster indicando que o driver Ascend não está pronto. Nesse caso, desinstale o driver NPU do nó e reinicie o npu-driver-installer para reinstalar o driver NPU. Depois de confirmar que o driver está instalado, reinicie o nó. Para obter detalhes sobre como desinstalar o driver, consulte Desinstalar o driver NPU.
Desinstalar o driver NPU
Faça logon no nó, obtenha os registros de operação do driver no arquivo /var/log/ascend_seclog/operation.log e localize o pacote de execução do driver usado na última instalação. Se o arquivo lof não existir, o driver será instalado usando o pacote combinado de npu_x86_latest.run ou npu_arm_latest.run. Depois de encontrar o pacote de instalação do driver, execute o comando bash {run package name} --uninstall para desinstalar o driver e reiniciar o nó conforme solicitado.
- Efetue logon no nó em que o driver NPU precisa ser desinstalado e localize o arquivo /var/log/ascend_seclog/operation.log.
- Se o arquivo /var/log/ascend_seclog/operation.log puder ser encontrado, visualize o registro de instalação do driver para encontrar o registro de instalação do driver.
Se o arquivo /var/log/ascend_seclog/operation.log não puder ser encontrado, o driver pode ser instalado usando o pacote combinado de npu_x86_latest.run ou npu_arm_latest.run. Você pode confirmar isso verificando se o diretório /usr/local/HiAI/driver/ existe.
O pacote combinado do driver NPU é armazenado no diretório /root/d310_driver, e outros pacotes de instalação do driver são armazenados no diretório /root/npu-drivers.
- Depois de encontrar o pacote de instalação do driver, execute o comando bash {run package path} --uninstall para desinstalar o driver. O seguinte usa Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run como um exemplo:
bash /root/npu-drivers/Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run --uninstall
- Reinicie o nó conforme solicitado. (A instalação e a desinstalação do driver NPU atual terão efeito somente depois que o nó for reiniciado.)