Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ ModelArts/ Resource Management/ Clúster elástico/ Estado anormal de un grupo de recursos dedicado

Actualización más reciente 2024-09-14 GMT+08:00

Ver PDF

Estado anormal de un grupo de recursos dedicado

Límite de cuota de recursos

Cuando utiliza un grupo de recursos dedicado (por ejemplo, escalar recursos, crear una VPC, crear una VPC y una subred o interconectar una VPC), si el sistema muestra un mensaje que indica que la cuota de recursos es limitada, envíe un ticket de servicio.

Error de creación/cambio

Inicie sesión en la consola de gestión de ModelArts. En el panel de navegación, seleccione Dedicated Resource Pools > Elastic Cluster.
Haga clic en Records a la derecha de Create. En el cuadro de diálogo Records, consulte los registros de tareas fallidas.
Figura 1 Error al crear un grupo de recursos
Pase el cursor sobre para ver la causa de las fallas de las tareas.

De forma predeterminada, los registros de tareas fallidas se ordenan por tiempo de aplicación. Se pueden mostrar y conservar un máximo de 500 registros de tareas fallidas durante tres días.

Localización del nodo defectuoso

ModelArts agregará una mancha en un nodo defectuoso de K8S detectado para que los trabajos no se vean afectados ni programados en el nodo manchado. La siguiente tabla enumera las fallas que se pueden detectar. Puede localizar la falla consultando el código de aislamiento y el método de detección.

**Tabla 1** Código de aislamiento
Código de aislamiento	Categoría	Sub-categoría	Descripción	Método de detección
A050101	GPU	Memoria de la GPU	Existe un error de ECC de la GPU.	Ejecute el comando nvidia-smi -a y verifique si Pending Page Blacklist es Yes o si el valor de multi-bit Register File es mayor que 0. Para las GPU de Ampere, verifique si existe el siguiente contenido: Error de SRAM incorregible Reasignación de registros de fallas Xid 95 sucesos en dmsg (Para obtener más detalles, véase Gestión de errores de memoria de GPU de NVIDIA) La arquitectura de Ampere tiene los siguientes niveles de errores de memoria de GPU: L1: Se trata de errores de ECC de un solo bit que se pueden corregir. No afectan los servicios en ejecución. Para verificar estos errores, ejecute el comando nvidia-smi -a y busque Volatile Correctable. L2: Se trata de errores de ECC de varios bits que no se pueden corregir. Provocan fallas en los servicios en ejecución y requieren un reinicio del proceso para recuperarse. Para verificar estos errores, ejecute el comando nvidia-smi -a y busque Volatile Uncorrectable. L3: Estos son errores no suprimidos y pueden afectar a otros servicios. Requieren un restablecimiento de la tarjeta o un reinicio del nodo para borrarlos. Para comprobar estos errores, busque los eventos de Xid que contengan el número 95. (Los registros pendientes de reasignación son solo para referencia. Es necesario restablecer las tarjetas cuando el servicio está inactivo para activar el proceso de reasignación.) L4: Estos son errores que requieren un reemplazo de tarjeta. Para verificar estos errores, busque el campo SRAM Uncorrectable que sea mayor que 4 o el campo Remapped Failed que no sea cero.
A050102	GPU	Otra	El resultado de nvidia-smi contiene ERR.	Ejecute nvidia-smi -a y verifique si el resultado contiene ERR. Por lo general, el hardware, como la fuente de alimentación o el ventilador, presenta fallas.
A050103	GPU	Otra	Se agota el tiempo de espera de ejecución de nvidia-smi o no existe.	Verifique que el código de salida de nvidia-smi no sea 0.
A050104	GPU	Memoria de la GPU	El error ECC se ha producido 64 veces.	Ejecute el comando nvidia-smi -a, localice Retired Pages y verifique si la suma de Single Bit y Double Bit es mayor que 64.
A050148	GPU	Otra	Se produjo una alarma de infoROM.	Ejecute el comando nvidia-smi y verifique si el resultado contiene la alarma "infoROM is corrupted".
A050109	GPU	Otra	Otros errores de GPU	Verifique si existe otro error de GPU. Por lo general, el hardware presenta fallas. Póngase en contacto con el ingeniero técnico.
A050147	IB	Enlace	El estado de la NIC de IB es anormal.	Ejecute el comando ibstat y verifique si la NIC no se encuentra en estado activo.
A050121	NPU	Otra	El DCMI de la NPU detecta una excepción de controlador.	El entorno del controlador de NPU no es normal.
A050122	NPU	Otra	El dispositivo de DCMI de la NPU no funciona correctamente.	El dispositivo de NPU no funciona correctamente. La interfaz de Ascend DCMI devuelve una alarma importante o urgente.
A050123	NPU	Enlace	La red de DCMI de la NPU no funciona correctamente.	La conexión de red de la NPU no es normal.
A050129	NPU	Otra	Otros errores de NPU	Verifique si existe otro error de NPU. No puede rectificar la falla. Póngase en contacto con el ingeniero técnico.
A050149	NPU	Enlace	Verifique si el puerto de red de la herramienta hccn está desconectado intermitentemente.	La red de NPU es inestable y se desconecta intermitentemente. Ejecute el comando hccn_tool-i ${device_id} -link_stat -g y la red se desconectará más de cinco veces en 24 horas.
A050951	NPU	Memoria de la GPU	La cantidad de ECC de NPU alcanza el umbral de mantenimiento.	El valor del recuento de páginas aisladas de doble bit de HBM de la NPU es mayor o igual que 64.
A050146	Runtime	Otra	NTP no es normal.	El servicio ntpd o chronyd no funciona correctamente.
A050202	Runtime	Otra	El nodo no está listo.	El nodo no está disponible. El nodo de K8S contiene una de las siguientes manchas: node.kubernetes.io/unreachable node.kubernetes.io/not-ready
A050203	Runtime	Desconexión	La cantidad de tarjetas de IA normales no coincide con la capacidad real.	La GPU o la NPU están desconectadas.
A050206	Runtime	Otra	El disco duro de Kubelet es de solo lectura.	El directorio /mnt/paas/kubernetes/kubelet es de solo lectura.
A050801	Gestión de nodos	O&M del nodo	El recurso está reservado.	El nodo se marca como nodo en standby y contiene una mancha.
A050802	Gestión de nodos	O&M del nodo	Se produjo un error desconocido.	El nodo está marcado con una mancha desconocida.
A200001	Gestión de nodos	Actualización de controladores	Se está actualizando la GPU.	Se está actualizando la GPU.
A200002	Gestión de nodos	Actualización de controladores	Se está actualizando la NPU.	Se está actualizando la NPU.
A200008	Gestión de nodos	Admisión de nodo	Se está examinando la admisión.	Se está examinando la admisión, incluida la verificación de la configuración básica del nodo y la verificación simple del servicio.
A050933	Gestión de nodos	Failover de tolerancia a fallas	Se migrará el servicio de Failover en el nodo contaminado.	Se migrará el servicio de Failover en el nodo contaminado.
A050931	Entrenamiento de kit de herramientas	Contenedor de comprobación previa	Se detecta un error de GPU en el contenedor de comprobación previa.	Se detecta un error de GPU en el contenedor de comprobación previa.
A050932	Entrenamiento de kit de herramientas	Contenedor de comprobación previa	Se detecta un error de IB en el contenedor de comprobación previa.	Se detecta un error de IB en el contenedor de comprobación previa.