Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Computação
Elastic Cloud Server
Bare Metal Server
Auto Scaling
Image Management Service
Dedicated Host
FunctionGraph
Cloud Phone Host
Huawei Cloud EulerOS
Redes
Virtual Private Cloud
Elastic IP
Elastic Load Balance
NAT Gateway
Direct Connect
Virtual Private Network
VPC Endpoint
Cloud Connect
Enterprise Router
Enterprise Switch
Global Accelerator
Gerenciamento e governança
Cloud Eye
Identity and Access Management
Cloud Trace Service
Resource Formation Service
Tag Management Service
Log Tank Service
Config
Resource Access Manager
Simple Message Notification
Application Performance Management
Application Operations Management
Organizations
Optimization Advisor
Cloud Operations Center
Resource Governance Center
Migração
Server Migration Service
Object Storage Migration Service
Cloud Data Migration
Migration Center
Cloud Ecosystem
KooGallery
Partner Center
User Support
My Account
Billing Center
Cost Center
Resource Center
Enterprise Management
Service Tickets
HUAWEI CLOUD (International) FAQs
ICP Filing
Support Plans
My Credentials
Customer Operation Capabilities
Partner Support Plans
Professional Services
Análises
MapReduce Service
Data Lake Insight
CloudTable Service
Cloud Search Service
Data Lake Visualization
Data Ingestion Service
GaussDB(DWS)
DataArts Studio
IoT
IoT Device Access
Outros
Product Pricing Details
System Permissions
Console Quick Start
Common FAQs
Instructions for Associating with a HUAWEI CLOUD Partner
Message Center
Segurança e conformidade
Security Technologies and Applications
Web Application Firewall
Host Security Service
Cloud Firewall
SecMaster
Anti-DDoS Service
Data Encryption Workshop
Database Security Service
Cloud Bastion Host
Data Security Center
Cloud Certificate Manager
Situation Awareness
Managed Threat Detection
Blockchain
Blockchain Service
Serviços de mídia
Media Processing Center
Video On Demand
Live
SparkRTC
Armazenamento
Object Storage Service
Elastic Volume Service
Cloud Backup and Recovery
Cloud Server Backup Service
Storage Disaster Recovery Service
Scalable File Service
Volume Backup Service
Data Express Service
Dedicated Distributed Storage Service
Containers
Cloud Container Engine
SoftWare Repository for Container
Application Service Mesh
Ubiquitous Cloud Native Service
Cloud Container Instance
Bancos de dados
Relational Database Service
Document Database Service
Data Admin Service
Data Replication Service
GeminiDB
GaussDB
Distributed Database Middleware
Database and Application Migration UGO
TaurusDB
Middleware
Distributed Cache Service
API Gateway
Distributed Message Service for Kafka
Distributed Message Service for RabbitMQ
Distributed Message Service for RocketMQ
Cloud Service Engine
EventGrid
Dedicated Cloud
Dedicated Computing Cluster
Aplicações de negócios
ROMA Connect
Message & SMS
Domain Name Service
Edge Data Center Management
Meeting
AI
Face Recognition Service
Graph Engine Service
Content Moderation
Image Recognition
Data Lake Factory
Optical Character Recognition
ModelArts
ImageSearch
Conversational Bot Service
Speech Interaction Service
Huawei HiLens
Developer Tools
SDK Developer Guide
API Request Signing Guide
Terraform
Koo Command Line Interface
Distribuição de conteúdo e computação de borda
Content Delivery Network
Intelligent EdgeFabric
CloudPond
Soluções
SAP Cloud
High Performance Computing
Serviços para desenvolvedore
ServiceStage
CodeArts
CodeArts PerfTest
CodeArts Req
CodeArts Pipeline
CodeArts Build
CodeArts Deploy
CodeArts Artifact
CodeArts TestPlan
CodeArts Check
Cloud Application Engine
MacroVerse aPaaS
KooPhone
KooDrive
Central de ajuda/ ModelArts/ Gerenciamento de recursos/ Cluster elástico/ Status anormal de um pool de recursos dedicados

Status anormal de um pool de recursos dedicados

Atualizado em 2024-09-14 GMT+08:00

Limite de cota de recursos

Quando você usa um pool de recursos dedicados (por exemplo, dimensionamento de recursos, criação de uma VPC, criação de uma VPC e sub-rede ou interconexão de uma VPC), se o sistema exibir uma mensagem indicando que a cota de recursos é limitada, envie um tíquete de serviço.

Falhou na criação/falhou na alteração

  1. Faça logon no console de gerenciamento do ModelArts. No painel de navegação, escolha Dedicated Resource Pools > Elastic Cluster.
  2. Clique em Records à direita de Create. Na caixa de diálogo Records, visualize registros de tarefas com falha.
    Figura 1 Falhou ao criar um pool de recursos
  3. Passe o cursor sobre , veja a causa das falhas da tarefa.

    Por padrão, os registros de tarefas com falha são classificados por hora da aplicação. Um máximo de 500 registros de tarefas com falha podem ser exibidos e mantidos por três dias.

Localizar nó defeituoso

O ModelArts adicionará uma mancha em um nó defeituoso do K8S detectado para que os trabalhos não sejam afetados ou agendados para o nó contaminado. A tabela a seguir lista as falhas que podem ser detectadas. Você pode localizar a falha consultando o código de isolamento e o método de detecção.

Tabela 1 Código de isolamento

Código de isolamento

Categoria

Sub-categoria

Descrição

Método de detecção

A050101

GPU

Memória de GPU

Erro de ECC da GPU.

Execute o comando nvidia-smi -a e verifique se Pending Page Blacklist é Yes ou se o valor de multi-bit Register File é maior que 0. Para GPUs Ampere, verifique se o seguinte conteúdo existe:

  • Erro de SRAM incorrigível
  • Registros de falha de remapeamento
  • Eventos Xid 95 em dmsg

(Para obter detalhes, consulte Gerenciamento de erros de memória da GPU de NVIDIA.)

A arquitetura Ampere tem os seguintes níveis de erros de memória da GPU:

  • L1: estes são erros ECC de bit único que podem ser corrigidos. Eles não afetam os serviços em execução. Para verificar esses erros, execute o comando nvidia-smi -a e procure por Volatile Correctable.
  • L2: estes são erros ECC de vários bits que não podem ser corrigidos. Eles fazem com que os serviços em execução falhem e exigem uma reinicialização do processo para recuperar. Para verificar esses erros, execute o comando nvidia-smi -a e procure por Volatile Uncorrectable.
  • L3: estes são erros não suprimidos e podem afetar outros serviços. Eles exigem uma reinicialização da placa ou uma reinicialização do nó para limpar. Para verificar esses erros, procure os eventos Xid que contêm o número 95. (Os registros de Remapeados pendentes são apenas para referência. Você precisa redefinir as placas quando o serviço estiver ocioso para acionar o processo de remapeamento.)
  • L4: são erros que exigem a substituição da placa. Para verificar esses erros, procure o campo SRAM Uncorrectable que é maior que 4 ou o campo Remapped Failed que não é zero.

A050102

GPU

Outros

A saída de nvidia-smi contém ERR.

Execute nvidia-smi -a e verifique se a saída contém ERR. Normalmente, o hardware, como a fonte de alimentação ou o ventilador, está com defeito.

A050103

GPU

Outros

A execução de nvidia-smi expira ou não existe.

Verifique se o código de saída de nvidia-smi não é 0.

A050104

GPU

Memória de GPU

Erro de ECC ocorreu 64 vezes.

Execute o comando nvidia-smi -a, localize Retired Pages e verifique se a soma de Single Bit e Double Bit é maior que 64.

A050148

GPU

Outros

Um alarme de infoROM ocorre.

Execute o comando nvidia-smi e verifique se a saída contém o alarme "infoROM is corrupted".

A050109

GPU

Outros

Outros erros de GPU

Verifique se existe outro erro de GPU. Normalmente, há um hardware defeituoso. Entre em contato com o engenheiro técnico.

A050147

IB

Ligação

A NIC IB é anormal.

Execute o comando ibstat e verifique se a NIC não está no estado ativo.

A050121

NPU

Outros

Uma exceção de driver é detectada pela NPU DCMI.

O ambiente do driver da NPU é anormal.

A050122

NPU

Outros

O dispositivo de DCMI da NPU é anormal.

O dispositivo da NPU é anormal. A interface Ascend DCMI retorna um alarme importante ou urgente.

A050123

NPU

Ligação

A rede de DCMI da NPU é anormal.

A conexão de rede da NPU é anormal.

A050129

NPU

Outros

Outros erros da NPU

Verifique se existe outro erro da NPU. Você não pode corrigir a falha. Entre em contato com o engenheiro técnico.

A050149

NPU

Ligação

Verifique se a porta de rede da ferramenta hccn está desconectada intermitentemente.

A rede da NPU é instável e desconectada intermitentemente. Execute o comando hccn_tool-i ${device_id} -link_stat -g e a rede será desconectada mais de cinco vezes em 24 horas.

A050951

NPU

Memória de GPU

O número de ECCs da NPU atinge o limite de manutenção.

O valor de HBM Double Bit Isolated Pages Count da NPU é maior ou igual a 64.

A050146

Tempo de execução

Outros

O NTP está anormal.

O serviço ntpd ou chronyd é anormal.

A050202

Tempo de execução

Outros

O nó não está pronto.

O nó não está disponível. O nó do K8S contém uma das seguintes manchas:

  • node.kubernetes.io/unreachable
  • node.kubernetes.io/not-ready

A050203

Tempo de execução

Desconexão

O número de placas de IA normais não corresponde à capacidade real.

A GPU ou NPU está desconectada.

A050206

Tempo de execução

Outros

O disco rígido do Kubelet é somente leitura.

O diretório /mnt/paas/kubernetes/kubelet é somente leitura.

A050801

Gerenciamento de nó

O&M do nó

O recurso é reservado.

O nó é marcado como o nó em espera e contém uma mancha.

A050802

Gerenciamento de nó

O&M do nó

Ocorre um erro desconhecido.

O nó está marcado com uma mancha desconhecida.

A200001

Gerenciamento de nó

Atualização do driver

A GPU está sendo atualizada.

A GPU está sendo atualizada.

A200002

Gerenciamento de nó

Atualização do driver

A NPU está sendo atualizada.

A NPU está sendo atualizada.

A200008

Gerenciamento de nó

Admissão de nó

A admissão está sendo examinada.

A admissão está sendo examinada, incluindo verificação básica de configuração de nó e verificação de serviço simples.

A050933

Gerenciamento de nó

Tolerância a falhas de Failover

O serviço de Failover no nó contaminado será migrado.

O serviço de Failover no nó contaminado será migrado.

A050931

Toolkit de treinamento

Contêiner de pré-verificação

Um erro de GPU é detectado no contêiner de pré-verificação.

Um erro de GPU é detectado no contêiner de pré-verificação.

A050932

Toolkit de treinamento

Contêiner de pré-verificação

Um erro de IB é detectado no contêiner de pré-verificação.

Um erro de IB é detectado no contêiner de pré-verificação.

Usamos cookies para aprimorar nosso site e sua experiência. Ao continuar a navegar em nosso site, você aceita nossa política de cookies. Saiba mais

Feedback

Feedback

Feedback

0/500

Conteúdo selecionado

Envie o conteúdo selecionado com o feedback