Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2024-09-10 GMT+08:00

huawei-npu

Presentación

Huawei-npu es un complemento de gestión para dispositivos de Huawei NPU en contenedores.

Después de instalar este complemento, puede crear nodos acelerados por Ascend para procesar de forma rápida y eficiente la inferencia y el reconocimiento de imágenes.

Notas y restricciones

  • Si se utilizan nodos acelerados por Ascend en un clúster, se debe instalar el complemento huawei-npu.
  • Después de migrar un nodo acelerado por AI, el nodo se restablecerá. Es necesario volver a instalar manualmente el controlador de NPU.

Instalación del complemento

  1. Inicie sesión en la consola de CCE y acceda a la consola del clúster. Elija Add-ons en el panel de navegación, localice huawei-npu a la derecha y haga clic en Install.
  2. Establezca los parámetros de NPU. El complemento utiliza los siguientes parámetros de forma predeterminada. La configuración predeterminada de NPU proporcionada por el complemento puede satisfacer la mayoría de los escenarios y no requiere cambios.

    {
    	"check_frequency_failed_threshold": 100,
    	"check_frequency_fall_times": 3,
    	"check_frequency_gate": false,
    	"check_frequency_recover_threshold": 100,
    	"check_frequency_rise_times": 2,
    	"container_path": "/usr/local/HiAI_unused",
    	"host_path": "/usr/local/HiAI_unused"
    }

  3. Haga clic en Install.

Cómo comprobar si el controlador de NPU ha sido instalado en un nodo

Después de asegurarse de que el controlador está instalado correctamente, debe reiniciar el nodo para que el controlador surta efecto. De lo contrario, el controlador no puede surtir efecto y los recursos de NPU no están disponibles. Para comprobar si el controlador está instalado, realice las siguientes operaciones:

  1. En la página Add-ons del clúster, haga clic en huawei-npu para ir a su lista de pods.

  2. El estado del pod npu-driver-installer es Running.

    Si el nodo se reinicia antes de instalar el controlador de NPU, la instalación del controlador puede fallar y se muestra un mensaje en la página Nodes del clúster que indica que el controlador Ascend no está listo. En este caso, debe desinstalar el controlador de NPU del nodo y reiniciar el pod npu-driver-installer para reinstalar el controlador de NPU. Después de confirmar que el controlador está instalado, reinicie el nodo. Para obtener más información sobre cómo desinstalar el controlador, consulte Desinstalación del controlador de NPU.

Desinstalación del controlador de NPU

Inicie sesión en el nodo, obtenga los registros de operación del controlador en el archivo /var/log/ascend_seclog/operation.log y busque el paquete de ejecución del controlador utilizado en la última instalación. Si el archivo lof no existe, el controlador se instala utilizando el paquete combinado de controladores npu_x86_latest.run o npu_arm_latest.run. Después de encontrar el paquete de instalación del controlador, ejecute el comando bash {run package name} --uninstall para desinstalar el controlador y reiniciar el nodo como se le solicite.

  1. Inicie sesión en el nodo donde se debe desinstalar el controlador de NPU y encuentre el archivo /var/log/ascend_seclog/operation.log.
  2. Si se encuentra el archivo /var/log/ascend_seclog/operation.log, vea el log de instalación del controlador para encontrar su registro.

    Si no se encuentra el archivo /var/log/ascend_seclog/operation.log, el controlador se puede instalar utilizando el paquete combinado de controladores npu_x86_latest.run o npu_arm_latest.run. Puede confirmar esto comprobando si el directorio /usr/local/HiAI/driver/ existe.

    El paquete combinado del controlador de NPU se almacena en el directorio /root/d310_driver y otros paquetes de instalación de controladores se almacenan en el directorio /root/npu-drivers.

  3. Después de encontrar el paquete de instalación del controlador, ejecute el comando bash {run package path} --uninstall para desinstalar el controlador. A continuación se utiliza Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run como ejemplo:

    bash /root/npu-drivers/Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run --uninstall

  4. Reinicie el nodo como se le solicite. (La instalación y la desinstalación del controlador de NPU actual solo tienen efecto después de reiniciar el nodo.)

Historial de cambios

Tabla 1 Versiones de complementos de CCE

Versión del complemento

Versión de clúster admitida

1.2.5

/v1.(19|21|23|25).*/

1.2.4

/v1.(19|21|23|25).*/

1.2.2

/v1.(19|21|23).*/

1.2.1

/v1.(19|21|23).*/

1.1.8

/v1.(15|17|19|21).*/

1.1.2

/v1.(15|17|19).*/

1.1.1

/v1.(15|17|19).*/

1.1.0

/v1.(17|19).*/

1.0.8

/v1.(13|15|17).*/

1.0.6

/v1.(13|15|17).*/

1.0.5

/v1.(13|15|17).*/

1.0.3

/v1.(13|15|17).*/