Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Central de ajuda/ ModelArts/ Gerenciamento de recursos/ Cluster elástico/ Status anormal de um pool de recursos dedicados
Atualizado em 2024-09-14 GMT+08:00

Status anormal de um pool de recursos dedicados

Limite de cota de recursos

Quando você usa um pool de recursos dedicados (por exemplo, dimensionamento de recursos, criação de uma VPC, criação de uma VPC e sub-rede ou interconexão de uma VPC), se o sistema exibir uma mensagem indicando que a cota de recursos é limitada, envie um tíquete de serviço.

Falhou na criação/falhou na alteração

  1. Faça logon no console de gerenciamento do ModelArts. No painel de navegação, escolha Dedicated Resource Pools > Elastic Cluster.
  2. Clique em Records à direita de Create. Na caixa de diálogo Records, visualize registros de tarefas com falha.
    Figura 1 Falhou ao criar um pool de recursos
  3. Passe o cursor sobre , veja a causa das falhas da tarefa.

    Por padrão, os registros de tarefas com falha são classificados por hora da aplicação. Um máximo de 500 registros de tarefas com falha podem ser exibidos e mantidos por três dias.

Localizar nó defeituoso

O ModelArts adicionará uma mancha em um nó defeituoso do K8S detectado para que os trabalhos não sejam afetados ou agendados para o nó contaminado. A tabela a seguir lista as falhas que podem ser detectadas. Você pode localizar a falha consultando o código de isolamento e o método de detecção.

Tabela 1 Código de isolamento

Código de isolamento

Categoria

Sub-categoria

Descrição

Método de detecção

A050101

GPU

Memória de GPU

Erro de ECC da GPU.

Execute o comando nvidia-smi -a e verifique se Pending Page Blacklist é Yes ou se o valor de multi-bit Register File é maior que 0. Para GPUs Ampere, verifique se o seguinte conteúdo existe:

  • Erro de SRAM incorrigível
  • Registros de falha de remapeamento
  • Eventos Xid 95 em dmsg

(Para obter detalhes, consulte Gerenciamento de erros de memória da GPU de NVIDIA.)

A arquitetura Ampere tem os seguintes níveis de erros de memória da GPU:

  • L1: estes são erros ECC de bit único que podem ser corrigidos. Eles não afetam os serviços em execução. Para verificar esses erros, execute o comando nvidia-smi -a e procure por Volatile Correctable.
  • L2: estes são erros ECC de vários bits que não podem ser corrigidos. Eles fazem com que os serviços em execução falhem e exigem uma reinicialização do processo para recuperar. Para verificar esses erros, execute o comando nvidia-smi -a e procure por Volatile Uncorrectable.
  • L3: estes são erros não suprimidos e podem afetar outros serviços. Eles exigem uma reinicialização da placa ou uma reinicialização do nó para limpar. Para verificar esses erros, procure os eventos Xid que contêm o número 95. (Os registros de Remapeados pendentes são apenas para referência. Você precisa redefinir as placas quando o serviço estiver ocioso para acionar o processo de remapeamento.)
  • L4: são erros que exigem a substituição da placa. Para verificar esses erros, procure o campo SRAM Uncorrectable que é maior que 4 ou o campo Remapped Failed que não é zero.

A050102

GPU

Outros

A saída de nvidia-smi contém ERR.

Execute nvidia-smi -a e verifique se a saída contém ERR. Normalmente, o hardware, como a fonte de alimentação ou o ventilador, está com defeito.

A050103

GPU

Outros

A execução de nvidia-smi expira ou não existe.

Verifique se o código de saída de nvidia-smi não é 0.

A050104

GPU

Memória de GPU

Erro de ECC ocorreu 64 vezes.

Execute o comando nvidia-smi -a, localize Retired Pages e verifique se a soma de Single Bit e Double Bit é maior que 64.

A050148

GPU

Outros

Um alarme de infoROM ocorre.

Execute o comando nvidia-smi e verifique se a saída contém o alarme "infoROM is corrupted".

A050109

GPU

Outros

Outros erros de GPU

Verifique se existe outro erro de GPU. Normalmente, há um hardware defeituoso. Entre em contato com o engenheiro técnico.

A050147

IB

Ligação

A NIC IB é anormal.

Execute o comando ibstat e verifique se a NIC não está no estado ativo.

A050121

NPU

Outros

Uma exceção de driver é detectada pela NPU DCMI.

O ambiente do driver da NPU é anormal.

A050122

NPU

Outros

O dispositivo de DCMI da NPU é anormal.

O dispositivo da NPU é anormal. A interface Ascend DCMI retorna um alarme importante ou urgente.

A050123

NPU

Ligação

A rede de DCMI da NPU é anormal.

A conexão de rede da NPU é anormal.

A050129

NPU

Outros

Outros erros da NPU

Verifique se existe outro erro da NPU. Você não pode corrigir a falha. Entre em contato com o engenheiro técnico.

A050149

NPU

Ligação

Verifique se a porta de rede da ferramenta hccn está desconectada intermitentemente.

A rede da NPU é instável e desconectada intermitentemente. Execute o comando hccn_tool-i ${device_id} -link_stat -g e a rede será desconectada mais de cinco vezes em 24 horas.

A050951

NPU

Memória de GPU

O número de ECCs da NPU atinge o limite de manutenção.

O valor de HBM Double Bit Isolated Pages Count da NPU é maior ou igual a 64.

A050146

Tempo de execução

Outros

O NTP está anormal.

O serviço ntpd ou chronyd é anormal.

A050202

Tempo de execução

Outros

O nó não está pronto.

O nó não está disponível. O nó do K8S contém uma das seguintes manchas:

  • node.kubernetes.io/unreachable
  • node.kubernetes.io/not-ready

A050203

Tempo de execução

Desconexão

O número de placas de IA normais não corresponde à capacidade real.

A GPU ou NPU está desconectada.

A050206

Tempo de execução

Outros

O disco rígido do Kubelet é somente leitura.

O diretório /mnt/paas/kubernetes/kubelet é somente leitura.

A050801

Gerenciamento de nó

O&M do nó

O recurso é reservado.

O nó é marcado como o nó em espera e contém uma mancha.

A050802

Gerenciamento de nó

O&M do nó

Ocorre um erro desconhecido.

O nó está marcado com uma mancha desconhecida.

A200001

Gerenciamento de nó

Atualização do driver

A GPU está sendo atualizada.

A GPU está sendo atualizada.

A200002

Gerenciamento de nó

Atualização do driver

A NPU está sendo atualizada.

A NPU está sendo atualizada.

A200008

Gerenciamento de nó

Admissão de nó

A admissão está sendo examinada.

A admissão está sendo examinada, incluindo verificação básica de configuração de nó e verificação de serviço simples.

A050933

Gerenciamento de nó

Tolerância a falhas de Failover

O serviço de Failover no nó contaminado será migrado.

O serviço de Failover no nó contaminado será migrado.

A050931

Toolkit de treinamento

Contêiner de pré-verificação

Um erro de GPU é detectado no contêiner de pré-verificação.

Um erro de GPU é detectado no contêiner de pré-verificação.

A050932

Toolkit de treinamento

Contêiner de pré-verificação

Um erro de IB é detectado no contêiner de pré-verificação.

Um erro de IB é detectado no contêiner de pré-verificação.