Estado anormal de un grupo de recursos dedicado
Límite de cuota de recursos
Cuando utiliza un grupo de recursos dedicado (por ejemplo, escalar recursos, crear una VPC, crear una VPC y una subred o interconectar una VPC), si el sistema muestra un mensaje que indica que la cuota de recursos es limitada, envíe un ticket de servicio.
Error de creación/cambio
- Inicie sesión en la consola de gestión de ModelArts. En el panel de navegación, seleccione Dedicated Resource Pools > Elastic Cluster.
- Haga clic en Records a la derecha de Create. En el cuadro de diálogo Records, consulte los registros de tareas fallidas.
Figura 1 Error al crear un grupo de recursos
- Pase el cursor sobre para ver la causa de las fallas de las tareas.
De forma predeterminada, los registros de tareas fallidas se ordenan por tiempo de aplicación. Se pueden mostrar y conservar un máximo de 500 registros de tareas fallidas durante tres días.
Localización del nodo defectuoso
ModelArts agregará una mancha en un nodo defectuoso de K8S detectado para que los trabajos no se vean afectados ni programados en el nodo manchado. La siguiente tabla enumera las fallas que se pueden detectar. Puede localizar la falla consultando el código de aislamiento y el método de detección.
Código de aislamiento |
Categoría |
Sub-categoría |
Descripción |
Método de detección |
---|---|---|---|---|
A050101 |
GPU |
Memoria de la GPU |
Existe un error de ECC de la GPU. |
Ejecute el comando nvidia-smi -a y verifique si Pending Page Blacklist es Yes o si el valor de multi-bit Register File es mayor que 0. Para las GPU de Ampere, verifique si existe el siguiente contenido:
(Para obtener más detalles, véase Gestión de errores de memoria de GPU de NVIDIA) La arquitectura de Ampere tiene los siguientes niveles de errores de memoria de GPU:
|
A050102 |
GPU |
Otra |
El resultado de nvidia-smi contiene ERR. |
Ejecute nvidia-smi -a y verifique si el resultado contiene ERR. Por lo general, el hardware, como la fuente de alimentación o el ventilador, presenta fallas. |
A050103 |
GPU |
Otra |
Se agota el tiempo de espera de ejecución de nvidia-smi o no existe. |
Verifique que el código de salida de nvidia-smi no sea 0. |
A050104 |
GPU |
Memoria de la GPU |
El error ECC se ha producido 64 veces. |
Ejecute el comando nvidia-smi -a, localice Retired Pages y verifique si la suma de Single Bit y Double Bit es mayor que 64. |
A050148 |
GPU |
Otra |
Se produjo una alarma de infoROM. |
Ejecute el comando nvidia-smi y verifique si el resultado contiene la alarma "infoROM is corrupted". |
A050109 |
GPU |
Otra |
Otros errores de GPU |
Verifique si existe otro error de GPU. Por lo general, el hardware presenta fallas. Póngase en contacto con el ingeniero técnico. |
A050147 |
IB |
Enlace |
El estado de la NIC de IB es anormal. |
Ejecute el comando ibstat y verifique si la NIC no se encuentra en estado activo. |
A050121 |
NPU |
Otra |
El DCMI de la NPU detecta una excepción de controlador. |
El entorno del controlador de NPU no es normal. |
A050122 |
NPU |
Otra |
El dispositivo de DCMI de la NPU no funciona correctamente. |
El dispositivo de NPU no funciona correctamente. La interfaz de Ascend DCMI devuelve una alarma importante o urgente. |
A050123 |
NPU |
Enlace |
La red de DCMI de la NPU no funciona correctamente. |
La conexión de red de la NPU no es normal. |
A050129 |
NPU |
Otra |
Otros errores de NPU |
Verifique si existe otro error de NPU. No puede rectificar la falla. Póngase en contacto con el ingeniero técnico. |
A050149 |
NPU |
Enlace |
Verifique si el puerto de red de la herramienta hccn está desconectado intermitentemente. |
La red de NPU es inestable y se desconecta intermitentemente. Ejecute el comando hccn_tool-i ${device_id} -link_stat -g y la red se desconectará más de cinco veces en 24 horas. |
A050951 |
NPU |
Memoria de la GPU |
La cantidad de ECC de NPU alcanza el umbral de mantenimiento. |
El valor del recuento de páginas aisladas de doble bit de HBM de la NPU es mayor o igual que 64. |
A050146 |
Runtime |
Otra |
NTP no es normal. |
El servicio ntpd o chronyd no funciona correctamente. |
A050202 |
Runtime |
Otra |
El nodo no está listo. |
El nodo no está disponible. El nodo de K8S contiene una de las siguientes manchas:
|
A050203 |
Runtime |
Desconexión |
La cantidad de tarjetas de IA normales no coincide con la capacidad real. |
La GPU o la NPU están desconectadas. |
A050206 |
Runtime |
Otra |
El disco duro de Kubelet es de solo lectura. |
El directorio /mnt/paas/kubernetes/kubelet es de solo lectura. |
A050801 |
Gestión de nodos |
O&M del nodo |
El recurso está reservado. |
El nodo se marca como nodo en standby y contiene una mancha. |
A050802 |
Gestión de nodos |
O&M del nodo |
Se produjo un error desconocido. |
El nodo está marcado con una mancha desconocida. |
A200001 |
Gestión de nodos |
Actualización de controladores |
Se está actualizando la GPU. |
Se está actualizando la GPU. |
A200002 |
Gestión de nodos |
Actualización de controladores |
Se está actualizando la NPU. |
Se está actualizando la NPU. |
A200008 |
Gestión de nodos |
Admisión de nodo |
Se está examinando la admisión. |
Se está examinando la admisión, incluida la verificación de la configuración básica del nodo y la verificación simple del servicio. |
A050933 |
Gestión de nodos |
Failover de tolerancia a fallas |
Se migrará el servicio de Failover en el nodo contaminado. |
Se migrará el servicio de Failover en el nodo contaminado. |
A050931 |
Entrenamiento de kit de herramientas |
Contenedor de comprobación previa |
Se detecta un error de GPU en el contenedor de comprobación previa. |
Se detecta un error de GPU en el contenedor de comprobación previa. |
A050932 |
Entrenamiento de kit de herramientas |
Contenedor de comprobación previa |
Se detecta un error de IB en el contenedor de comprobación previa. |
Se detecta un error de IB en el contenedor de comprobación previa. |