Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Cómputo
Elastic Cloud Server
Bare Metal Server
Auto Scaling
Image Management Service
Dedicated Host
FunctionGraph
Cloud Phone Host
Huawei Cloud EulerOS
Redes
Virtual Private Cloud
Elastic IP
Elastic Load Balance
NAT Gateway
Direct Connect
Virtual Private Network
VPC Endpoint
Cloud Connect
Enterprise Router
Enterprise Switch
Global Accelerator
Gestión y gobernanza
Cloud Eye
Identity and Access Management
Cloud Trace Service
Resource Formation Service
Tag Management Service
Log Tank Service
Config
Resource Access Manager
Simple Message Notification
Application Performance Management
Application Operations Management
Organizations
Optimization Advisor
Cloud Operations Center
Resource Governance Center
Migración
Server Migration Service
Object Storage Migration Service
Cloud Data Migration
Migration Center
Cloud Ecosystem
KooGallery
Partner Center
User Support
My Account
Billing Center
Cost Center
Resource Center
Enterprise Management
Service Tickets
HUAWEI CLOUD (International) FAQs
ICP Filing
Support Plans
My Credentials
Customer Operation Capabilities
Partner Support Plans
Professional Services
Análisis
MapReduce Service
Data Lake Insight
CloudTable Service
Cloud Search Service
Data Lake Visualization
Data Ingestion Service
GaussDB(DWS)
DataArts Studio
IoT
IoT Device Access
Otros
Product Pricing Details
System Permissions
Console Quick Start
Common FAQs
Instructions for Associating with a HUAWEI CLOUD Partner
Message Center
Seguridad y cumplimiento
Security Technologies and Applications
Web Application Firewall
Host Security Service
Cloud Firewall
SecMaster
Data Encryption Workshop
Database Security Service
Cloud Bastion Host
Data Security Center
Cloud Certificate Manager
Blockchain
Blockchain Service
Servicios multimedia
Media Processing Center
Video On Demand
Live
SparkRTC
Almacenamiento
Object Storage Service
Elastic Volume Service
Cloud Backup and Recovery
Storage Disaster Recovery Service
Scalable File Service
Volume Backup Service
Cloud Server Backup Service
Data Express Service
Dedicated Distributed Storage Service
Contenedores
Cloud Container Engine
SoftWare Repository for Container
Application Service Mesh
Ubiquitous Cloud Native Service
Cloud Container Instance
Bases de datos
Relational Database Service
Document Database Service
Data Admin Service
Data Replication Service
GeminiDB
GaussDB
Distributed Database Middleware
Database and Application Migration UGO
TaurusDB
Middleware
Distributed Cache Service
API Gateway
Distributed Message Service for Kafka
Distributed Message Service for RabbitMQ
Distributed Message Service for RocketMQ
Cloud Service Engine
EventGrid
Dedicated Cloud
Dedicated Computing Cluster
Aplicaciones empresariales
ROMA Connect
Message & SMS
Domain Name Service
Edge Data Center Management
Meeting
AI
Face Recognition Service
Graph Engine Service
Content Moderation
Image Recognition
Data Lake Factory
Optical Character Recognition
ModelArts
ImageSearch
Conversational Bot Service
Speech Interaction Service
Huawei HiLens
Developer Tools
SDK Developer Guide
API Request Signing Guide
Terraform
Koo Command Line Interface
Distribución de contenido y cómputo de borde
Content Delivery Network
Intelligent EdgeFabric
CloudPond
Soluciones
SAP Cloud
High Performance Computing
Servicios para desarrolladores
ServiceStage
CodeArts
CodeArts PerfTest
CodeArts Req
CodeArts Pipeline
CodeArts Build
CodeArts Deploy
CodeArts Artifact
CodeArts TestPlan
CodeArts Check
Cloud Application Engine
aPaaS MacroVerse
KooPhone
KooDrive
Centro de ayuda/ ModelArts/ Resource Management/ Clúster elástico/ Estado anormal de un grupo de recursos dedicado

Estado anormal de un grupo de recursos dedicado

Actualización más reciente 2024-09-14 GMT+08:00

Límite de cuota de recursos

Cuando utiliza un grupo de recursos dedicado (por ejemplo, escalar recursos, crear una VPC, crear una VPC y una subred o interconectar una VPC), si el sistema muestra un mensaje que indica que la cuota de recursos es limitada, envíe un ticket de servicio.

Error de creación/cambio

  1. Inicie sesión en la consola de gestión de ModelArts. En el panel de navegación, seleccione Dedicated Resource Pools > Elastic Cluster.
  2. Haga clic en Records a la derecha de Create. En el cuadro de diálogo Records, consulte los registros de tareas fallidas.
    Figura 1 Error al crear un grupo de recursos
  3. Pase el cursor sobre para ver la causa de las fallas de las tareas.
    NOTA:

    De forma predeterminada, los registros de tareas fallidas se ordenan por tiempo de aplicación. Se pueden mostrar y conservar un máximo de 500 registros de tareas fallidas durante tres días.

Localización del nodo defectuoso

ModelArts agregará una mancha en un nodo defectuoso de K8S detectado para que los trabajos no se vean afectados ni programados en el nodo manchado. La siguiente tabla enumera las fallas que se pueden detectar. Puede localizar la falla consultando el código de aislamiento y el método de detección.

Tabla 1 Código de aislamiento

Código de aislamiento

Categoría

Sub-categoría

Descripción

Método de detección

A050101

GPU

Memoria de la GPU

Existe un error de ECC de la GPU.

Ejecute el comando nvidia-smi -a y verifique si Pending Page Blacklist es Yes o si el valor de multi-bit Register File es mayor que 0. Para las GPU de Ampere, verifique si existe el siguiente contenido:

  • Error de SRAM incorregible
  • Reasignación de registros de fallas
  • Xid 95 sucesos en dmsg

(Para obtener más detalles, véase Gestión de errores de memoria de GPU de NVIDIA)

La arquitectura de Ampere tiene los siguientes niveles de errores de memoria de GPU:

  • L1: Se trata de errores de ECC de un solo bit que se pueden corregir. No afectan los servicios en ejecución. Para verificar estos errores, ejecute el comando nvidia-smi -a y busque Volatile Correctable.
  • L2: Se trata de errores de ECC de varios bits que no se pueden corregir. Provocan fallas en los servicios en ejecución y requieren un reinicio del proceso para recuperarse. Para verificar estos errores, ejecute el comando nvidia-smi -a y busque Volatile Uncorrectable.
  • L3: Estos son errores no suprimidos y pueden afectar a otros servicios. Requieren un restablecimiento de la tarjeta o un reinicio del nodo para borrarlos. Para comprobar estos errores, busque los eventos de Xid que contengan el número 95. (Los registros pendientes de reasignación son solo para referencia. Es necesario restablecer las tarjetas cuando el servicio está inactivo para activar el proceso de reasignación.)
  • L4: Estos son errores que requieren un reemplazo de tarjeta. Para verificar estos errores, busque el campo SRAM Uncorrectable que sea mayor que 4 o el campo Remapped Failed que no sea cero.

A050102

GPU

Otra

El resultado de nvidia-smi contiene ERR.

Ejecute nvidia-smi -a y verifique si el resultado contiene ERR. Por lo general, el hardware, como la fuente de alimentación o el ventilador, presenta fallas.

A050103

GPU

Otra

Se agota el tiempo de espera de ejecución de nvidia-smi o no existe.

Verifique que el código de salida de nvidia-smi no sea 0.

A050104

GPU

Memoria de la GPU

El error ECC se ha producido 64 veces.

Ejecute el comando nvidia-smi -a, localice Retired Pages y verifique si la suma de Single Bit y Double Bit es mayor que 64.

A050148

GPU

Otra

Se produjo una alarma de infoROM.

Ejecute el comando nvidia-smi y verifique si el resultado contiene la alarma "infoROM is corrupted".

A050109

GPU

Otra

Otros errores de GPU

Verifique si existe otro error de GPU. Por lo general, el hardware presenta fallas. Póngase en contacto con el ingeniero técnico.

A050147

IB

Enlace

El estado de la NIC de IB es anormal.

Ejecute el comando ibstat y verifique si la NIC no se encuentra en estado activo.

A050121

NPU

Otra

El DCMI de la NPU detecta una excepción de controlador.

El entorno del controlador de NPU no es normal.

A050122

NPU

Otra

El dispositivo de DCMI de la NPU no funciona correctamente.

El dispositivo de NPU no funciona correctamente. La interfaz de Ascend DCMI devuelve una alarma importante o urgente.

A050123

NPU

Enlace

La red de DCMI de la NPU no funciona correctamente.

La conexión de red de la NPU no es normal.

A050129

NPU

Otra

Otros errores de NPU

Verifique si existe otro error de NPU. No puede rectificar la falla. Póngase en contacto con el ingeniero técnico.

A050149

NPU

Enlace

Verifique si el puerto de red de la herramienta hccn está desconectado intermitentemente.

La red de NPU es inestable y se desconecta intermitentemente. Ejecute el comando hccn_tool-i ${device_id} -link_stat -g y la red se desconectará más de cinco veces en 24 horas.

A050951

NPU

Memoria de la GPU

La cantidad de ECC de NPU alcanza el umbral de mantenimiento.

El valor del recuento de páginas aisladas de doble bit de HBM de la NPU es mayor o igual que 64.

A050146

Runtime

Otra

NTP no es normal.

El servicio ntpd o chronyd no funciona correctamente.

A050202

Runtime

Otra

El nodo no está listo.

El nodo no está disponible. El nodo de K8S contiene una de las siguientes manchas:

  • node.kubernetes.io/unreachable
  • node.kubernetes.io/not-ready

A050203

Runtime

Desconexión

La cantidad de tarjetas de IA normales no coincide con la capacidad real.

La GPU o la NPU están desconectadas.

A050206

Runtime

Otra

El disco duro de Kubelet es de solo lectura.

El directorio /mnt/paas/kubernetes/kubelet es de solo lectura.

A050801

Gestión de nodos

O&M del nodo

El recurso está reservado.

El nodo se marca como nodo en standby y contiene una mancha.

A050802

Gestión de nodos

O&M del nodo

Se produjo un error desconocido.

El nodo está marcado con una mancha desconocida.

A200001

Gestión de nodos

Actualización de controladores

Se está actualizando la GPU.

Se está actualizando la GPU.

A200002

Gestión de nodos

Actualización de controladores

Se está actualizando la NPU.

Se está actualizando la NPU.

A200008

Gestión de nodos

Admisión de nodo

Se está examinando la admisión.

Se está examinando la admisión, incluida la verificación de la configuración básica del nodo y la verificación simple del servicio.

A050933

Gestión de nodos

Failover de tolerancia a fallas

Se migrará el servicio de Failover en el nodo contaminado.

Se migrará el servicio de Failover en el nodo contaminado.

A050931

Entrenamiento de kit de herramientas

Contenedor de comprobación previa

Se detecta un error de GPU en el contenedor de comprobación previa.

Se detecta un error de GPU en el contenedor de comprobación previa.

A050932

Entrenamiento de kit de herramientas

Contenedor de comprobación previa

Se detecta un error de IB en el contenedor de comprobación previa.

Se detecta un error de IB en el contenedor de comprobación previa.

Utilizamos cookies para mejorar nuestro sitio y tu experiencia. Al continuar navegando en nuestro sitio, tú aceptas nuestra política de cookies. Descubre más

Comentarios

Comentarios

Comentarios

0/500

Seleccionar contenido

Enviar el contenido seleccionado con los comentarios