Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda/ ModelArts/ Resource Management/ Clúster elástico/ Estado anormal de un grupo de recursos dedicado
Actualización más reciente 2024-09-14 GMT+08:00

Estado anormal de un grupo de recursos dedicado

Límite de cuota de recursos

Cuando utiliza un grupo de recursos dedicado (por ejemplo, escalar recursos, crear una VPC, crear una VPC y una subred o interconectar una VPC), si el sistema muestra un mensaje que indica que la cuota de recursos es limitada, envíe un ticket de servicio.

Error de creación/cambio

  1. Inicie sesión en la consola de gestión de ModelArts. En el panel de navegación, seleccione Dedicated Resource Pools > Elastic Cluster.
  2. Haga clic en Records a la derecha de Create. En el cuadro de diálogo Records, consulte los registros de tareas fallidas.
    Figura 1 Error al crear un grupo de recursos
  3. Pase el cursor sobre para ver la causa de las fallas de las tareas.

    De forma predeterminada, los registros de tareas fallidas se ordenan por tiempo de aplicación. Se pueden mostrar y conservar un máximo de 500 registros de tareas fallidas durante tres días.

Localización del nodo defectuoso

ModelArts agregará una mancha en un nodo defectuoso de K8S detectado para que los trabajos no se vean afectados ni programados en el nodo manchado. La siguiente tabla enumera las fallas que se pueden detectar. Puede localizar la falla consultando el código de aislamiento y el método de detección.

Tabla 1 Código de aislamiento

Código de aislamiento

Categoría

Sub-categoría

Descripción

Método de detección

A050101

GPU

Memoria de la GPU

Existe un error de ECC de la GPU.

Ejecute el comando nvidia-smi -a y verifique si Pending Page Blacklist es Yes o si el valor de multi-bit Register File es mayor que 0. Para las GPU de Ampere, verifique si existe el siguiente contenido:

  • Error de SRAM incorregible
  • Reasignación de registros de fallas
  • Xid 95 sucesos en dmsg

(Para obtener más detalles, véase Gestión de errores de memoria de GPU de NVIDIA)

La arquitectura de Ampere tiene los siguientes niveles de errores de memoria de GPU:

  • L1: Se trata de errores de ECC de un solo bit que se pueden corregir. No afectan los servicios en ejecución. Para verificar estos errores, ejecute el comando nvidia-smi -a y busque Volatile Correctable.
  • L2: Se trata de errores de ECC de varios bits que no se pueden corregir. Provocan fallas en los servicios en ejecución y requieren un reinicio del proceso para recuperarse. Para verificar estos errores, ejecute el comando nvidia-smi -a y busque Volatile Uncorrectable.
  • L3: Estos son errores no suprimidos y pueden afectar a otros servicios. Requieren un restablecimiento de la tarjeta o un reinicio del nodo para borrarlos. Para comprobar estos errores, busque los eventos de Xid que contengan el número 95. (Los registros pendientes de reasignación son solo para referencia. Es necesario restablecer las tarjetas cuando el servicio está inactivo para activar el proceso de reasignación.)
  • L4: Estos son errores que requieren un reemplazo de tarjeta. Para verificar estos errores, busque el campo SRAM Uncorrectable que sea mayor que 4 o el campo Remapped Failed que no sea cero.

A050102

GPU

Otra

El resultado de nvidia-smi contiene ERR.

Ejecute nvidia-smi -a y verifique si el resultado contiene ERR. Por lo general, el hardware, como la fuente de alimentación o el ventilador, presenta fallas.

A050103

GPU

Otra

Se agota el tiempo de espera de ejecución de nvidia-smi o no existe.

Verifique que el código de salida de nvidia-smi no sea 0.

A050104

GPU

Memoria de la GPU

El error ECC se ha producido 64 veces.

Ejecute el comando nvidia-smi -a, localice Retired Pages y verifique si la suma de Single Bit y Double Bit es mayor que 64.

A050148

GPU

Otra

Se produjo una alarma de infoROM.

Ejecute el comando nvidia-smi y verifique si el resultado contiene la alarma "infoROM is corrupted".

A050109

GPU

Otra

Otros errores de GPU

Verifique si existe otro error de GPU. Por lo general, el hardware presenta fallas. Póngase en contacto con el ingeniero técnico.

A050147

IB

Enlace

El estado de la NIC de IB es anormal.

Ejecute el comando ibstat y verifique si la NIC no se encuentra en estado activo.

A050121

NPU

Otra

El DCMI de la NPU detecta una excepción de controlador.

El entorno del controlador de NPU no es normal.

A050122

NPU

Otra

El dispositivo de DCMI de la NPU no funciona correctamente.

El dispositivo de NPU no funciona correctamente. La interfaz de Ascend DCMI devuelve una alarma importante o urgente.

A050123

NPU

Enlace

La red de DCMI de la NPU no funciona correctamente.

La conexión de red de la NPU no es normal.

A050129

NPU

Otra

Otros errores de NPU

Verifique si existe otro error de NPU. No puede rectificar la falla. Póngase en contacto con el ingeniero técnico.

A050149

NPU

Enlace

Verifique si el puerto de red de la herramienta hccn está desconectado intermitentemente.

La red de NPU es inestable y se desconecta intermitentemente. Ejecute el comando hccn_tool-i ${device_id} -link_stat -g y la red se desconectará más de cinco veces en 24 horas.

A050951

NPU

Memoria de la GPU

La cantidad de ECC de NPU alcanza el umbral de mantenimiento.

El valor del recuento de páginas aisladas de doble bit de HBM de la NPU es mayor o igual que 64.

A050146

Runtime

Otra

NTP no es normal.

El servicio ntpd o chronyd no funciona correctamente.

A050202

Runtime

Otra

El nodo no está listo.

El nodo no está disponible. El nodo de K8S contiene una de las siguientes manchas:

  • node.kubernetes.io/unreachable
  • node.kubernetes.io/not-ready

A050203

Runtime

Desconexión

La cantidad de tarjetas de IA normales no coincide con la capacidad real.

La GPU o la NPU están desconectadas.

A050206

Runtime

Otra

El disco duro de Kubelet es de solo lectura.

El directorio /mnt/paas/kubernetes/kubelet es de solo lectura.

A050801

Gestión de nodos

O&M del nodo

El recurso está reservado.

El nodo se marca como nodo en standby y contiene una mancha.

A050802

Gestión de nodos

O&M del nodo

Se produjo un error desconocido.

El nodo está marcado con una mancha desconocida.

A200001

Gestión de nodos

Actualización de controladores

Se está actualizando la GPU.

Se está actualizando la GPU.

A200002

Gestión de nodos

Actualización de controladores

Se está actualizando la NPU.

Se está actualizando la NPU.

A200008

Gestión de nodos

Admisión de nodo

Se está examinando la admisión.

Se está examinando la admisión, incluida la verificación de la configuración básica del nodo y la verificación simple del servicio.

A050933

Gestión de nodos

Failover de tolerancia a fallas

Se migrará el servicio de Failover en el nodo contaminado.

Se migrará el servicio de Failover en el nodo contaminado.

A050931

Entrenamiento de kit de herramientas

Contenedor de comprobación previa

Se detecta un error de GPU en el contenedor de comprobación previa.

Se detecta un error de GPU en el contenedor de comprobación previa.

A050932

Entrenamiento de kit de herramientas

Contenedor de comprobación previa

Se detecta un error de IB en el contenedor de comprobación previa.

Se detecta un error de IB en el contenedor de comprobación previa.