Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ ModelArts/ Gerenciamento de recursos/ Cluster elástico/ Status anormal de um pool de recursos dedicados

Atualizado em 2024-09-14 GMT+08:00

Ver PDF

Status anormal de um pool de recursos dedicados

Limite de cota de recursos

Quando você usa um pool de recursos dedicados (por exemplo, dimensionamento de recursos, criação de uma VPC, criação de uma VPC e sub-rede ou interconexão de uma VPC), se o sistema exibir uma mensagem indicando que a cota de recursos é limitada, envie um tíquete de serviço.

Falhou na criação/falhou na alteração

Faça logon no console de gerenciamento do ModelArts. No painel de navegação, escolha Dedicated Resource Pools > Elastic Cluster.
Clique em Records à direita de Create. Na caixa de diálogo Records, visualize registros de tarefas com falha.
Figura 1 Falhou ao criar um pool de recursos
Passe o cursor sobre , veja a causa das falhas da tarefa.

Por padrão, os registros de tarefas com falha são classificados por hora da aplicação. Um máximo de 500 registros de tarefas com falha podem ser exibidos e mantidos por três dias.

Localizar nó defeituoso

O ModelArts adicionará uma mancha em um nó defeituoso do K8S detectado para que os trabalhos não sejam afetados ou agendados para o nó contaminado. A tabela a seguir lista as falhas que podem ser detectadas. Você pode localizar a falha consultando o código de isolamento e o método de detecção.

**Tabela 1** Código de isolamento
Código de isolamento	Categoria	Sub-categoria	Descrição	Método de detecção
A050101	GPU	Memória de GPU	Erro de ECC da GPU.	Execute o comando nvidia-smi -a e verifique se Pending Page Blacklist é Yes ou se o valor de multi-bit Register File é maior que 0. Para GPUs Ampere, verifique se o seguinte conteúdo existe: Erro de SRAM incorrigível Registros de falha de remapeamento Eventos Xid 95 em dmsg (Para obter detalhes, consulte Gerenciamento de erros de memória da GPU de NVIDIA.) A arquitetura Ampere tem os seguintes níveis de erros de memória da GPU: L1: estes são erros ECC de bit único que podem ser corrigidos. Eles não afetam os serviços em execução. Para verificar esses erros, execute o comando nvidia-smi -a e procure por Volatile Correctable. L2: estes são erros ECC de vários bits que não podem ser corrigidos. Eles fazem com que os serviços em execução falhem e exigem uma reinicialização do processo para recuperar. Para verificar esses erros, execute o comando nvidia-smi -a e procure por Volatile Uncorrectable. L3: estes são erros não suprimidos e podem afetar outros serviços. Eles exigem uma reinicialização da placa ou uma reinicialização do nó para limpar. Para verificar esses erros, procure os eventos Xid que contêm o número 95. (Os registros de Remapeados pendentes são apenas para referência. Você precisa redefinir as placas quando o serviço estiver ocioso para acionar o processo de remapeamento.) L4: são erros que exigem a substituição da placa. Para verificar esses erros, procure o campo SRAM Uncorrectable que é maior que 4 ou o campo Remapped Failed que não é zero.
A050102	GPU	Outros	A saída de nvidia-smi contém ERR.	Execute nvidia-smi -a e verifique se a saída contém ERR. Normalmente, o hardware, como a fonte de alimentação ou o ventilador, está com defeito.
A050103	GPU	Outros	A execução de nvidia-smi expira ou não existe.	Verifique se o código de saída de nvidia-smi não é 0.
A050104	GPU	Memória de GPU	Erro de ECC ocorreu 64 vezes.	Execute o comando nvidia-smi -a, localize Retired Pages e verifique se a soma de Single Bit e Double Bit é maior que 64.
A050148	GPU	Outros	Um alarme de infoROM ocorre.	Execute o comando nvidia-smi e verifique se a saída contém o alarme "infoROM is corrupted".
A050109	GPU	Outros	Outros erros de GPU	Verifique se existe outro erro de GPU. Normalmente, há um hardware defeituoso. Entre em contato com o engenheiro técnico.
A050147	IB	Ligação	A NIC IB é anormal.	Execute o comando ibstat e verifique se a NIC não está no estado ativo.
A050121	NPU	Outros	Uma exceção de driver é detectada pela NPU DCMI.	O ambiente do driver da NPU é anormal.
A050122	NPU	Outros	O dispositivo de DCMI da NPU é anormal.	O dispositivo da NPU é anormal. A interface Ascend DCMI retorna um alarme importante ou urgente.
A050123	NPU	Ligação	A rede de DCMI da NPU é anormal.	A conexão de rede da NPU é anormal.
A050129	NPU	Outros	Outros erros da NPU	Verifique se existe outro erro da NPU. Você não pode corrigir a falha. Entre em contato com o engenheiro técnico.
A050149	NPU	Ligação	Verifique se a porta de rede da ferramenta hccn está desconectada intermitentemente.	A rede da NPU é instável e desconectada intermitentemente. Execute o comando hccn_tool-i ${device_id} -link_stat -g e a rede será desconectada mais de cinco vezes em 24 horas.
A050951	NPU	Memória de GPU	O número de ECCs da NPU atinge o limite de manutenção.	O valor de HBM Double Bit Isolated Pages Count da NPU é maior ou igual a 64.
A050146	Tempo de execução	Outros	O NTP está anormal.	O serviço ntpd ou chronyd é anormal.
A050202	Tempo de execução	Outros	O nó não está pronto.	O nó não está disponível. O nó do K8S contém uma das seguintes manchas: node.kubernetes.io/unreachable node.kubernetes.io/not-ready
A050203	Tempo de execução	Desconexão	O número de placas de IA normais não corresponde à capacidade real.	A GPU ou NPU está desconectada.
A050206	Tempo de execução	Outros	O disco rígido do Kubelet é somente leitura.	O diretório /mnt/paas/kubernetes/kubelet é somente leitura.
A050801	Gerenciamento de nó	O&M do nó	O recurso é reservado.	O nó é marcado como o nó em espera e contém uma mancha.
A050802	Gerenciamento de nó	O&M do nó	Ocorre um erro desconhecido.	O nó está marcado com uma mancha desconhecida.
A200001	Gerenciamento de nó	Atualização do driver	A GPU está sendo atualizada.	A GPU está sendo atualizada.
A200002	Gerenciamento de nó	Atualização do driver	A NPU está sendo atualizada.	A NPU está sendo atualizada.
A200008	Gerenciamento de nó	Admissão de nó	A admissão está sendo examinada.	A admissão está sendo examinada, incluindo verificação básica de configuração de nó e verificação de serviço simples.
A050933	Gerenciamento de nó	Tolerância a falhas de Failover	O serviço de Failover no nó contaminado será migrado.	O serviço de Failover no nó contaminado será migrado.
A050931	Toolkit de treinamento	Contêiner de pré-verificação	Um erro de GPU é detectado no contêiner de pré-verificação.	Um erro de GPU é detectado no contêiner de pré-verificação.
A050932	Toolkit de treinamento	Contêiner de pré-verificação	Um erro de IB é detectado no contêiner de pré-verificação.	Um erro de IB é detectado no contêiner de pré-verificação.