Status anormal de um pool de recursos dedicados
Limite de cota de recursos
Quando você usa um pool de recursos dedicados (por exemplo, dimensionamento de recursos, criação de uma VPC, criação de uma VPC e sub-rede ou interconexão de uma VPC), se o sistema exibir uma mensagem indicando que a cota de recursos é limitada, envie um tíquete de serviço.
Falhou na criação/falhou na alteração
- Faça logon no console de gerenciamento do ModelArts. No painel de navegação, escolha Dedicated Resource Pools > Elastic Cluster.
- Clique em Records à direita de Create. Na caixa de diálogo Records, visualize registros de tarefas com falha.
Figura 1 Falhou ao criar um pool de recursos
- Passe o cursor sobre , veja a causa das falhas da tarefa.
Por padrão, os registros de tarefas com falha são classificados por hora da aplicação. Um máximo de 500 registros de tarefas com falha podem ser exibidos e mantidos por três dias.
Localizar nó defeituoso
O ModelArts adicionará uma mancha em um nó defeituoso do K8S detectado para que os trabalhos não sejam afetados ou agendados para o nó contaminado. A tabela a seguir lista as falhas que podem ser detectadas. Você pode localizar a falha consultando o código de isolamento e o método de detecção.
Código de isolamento |
Categoria |
Sub-categoria |
Descrição |
Método de detecção |
---|---|---|---|---|
A050101 |
GPU |
Memória de GPU |
Erro de ECC da GPU. |
Execute o comando nvidia-smi -a e verifique se Pending Page Blacklist é Yes ou se o valor de multi-bit Register File é maior que 0. Para GPUs Ampere, verifique se o seguinte conteúdo existe:
(Para obter detalhes, consulte Gerenciamento de erros de memória da GPU de NVIDIA.) A arquitetura Ampere tem os seguintes níveis de erros de memória da GPU:
|
A050102 |
GPU |
Outros |
A saída de nvidia-smi contém ERR. |
Execute nvidia-smi -a e verifique se a saída contém ERR. Normalmente, o hardware, como a fonte de alimentação ou o ventilador, está com defeito. |
A050103 |
GPU |
Outros |
A execução de nvidia-smi expira ou não existe. |
Verifique se o código de saída de nvidia-smi não é 0. |
A050104 |
GPU |
Memória de GPU |
Erro de ECC ocorreu 64 vezes. |
Execute o comando nvidia-smi -a, localize Retired Pages e verifique se a soma de Single Bit e Double Bit é maior que 64. |
A050148 |
GPU |
Outros |
Um alarme de infoROM ocorre. |
Execute o comando nvidia-smi e verifique se a saída contém o alarme "infoROM is corrupted". |
A050109 |
GPU |
Outros |
Outros erros de GPU |
Verifique se existe outro erro de GPU. Normalmente, há um hardware defeituoso. Entre em contato com o engenheiro técnico. |
A050147 |
IB |
Ligação |
A NIC IB é anormal. |
Execute o comando ibstat e verifique se a NIC não está no estado ativo. |
A050121 |
NPU |
Outros |
Uma exceção de driver é detectada pela NPU DCMI. |
O ambiente do driver da NPU é anormal. |
A050122 |
NPU |
Outros |
O dispositivo de DCMI da NPU é anormal. |
O dispositivo da NPU é anormal. A interface Ascend DCMI retorna um alarme importante ou urgente. |
A050123 |
NPU |
Ligação |
A rede de DCMI da NPU é anormal. |
A conexão de rede da NPU é anormal. |
A050129 |
NPU |
Outros |
Outros erros da NPU |
Verifique se existe outro erro da NPU. Você não pode corrigir a falha. Entre em contato com o engenheiro técnico. |
A050149 |
NPU |
Ligação |
Verifique se a porta de rede da ferramenta hccn está desconectada intermitentemente. |
A rede da NPU é instável e desconectada intermitentemente. Execute o comando hccn_tool-i ${device_id} -link_stat -g e a rede será desconectada mais de cinco vezes em 24 horas. |
A050951 |
NPU |
Memória de GPU |
O número de ECCs da NPU atinge o limite de manutenção. |
O valor de HBM Double Bit Isolated Pages Count da NPU é maior ou igual a 64. |
A050146 |
Tempo de execução |
Outros |
O NTP está anormal. |
O serviço ntpd ou chronyd é anormal. |
A050202 |
Tempo de execução |
Outros |
O nó não está pronto. |
O nó não está disponível. O nó do K8S contém uma das seguintes manchas:
|
A050203 |
Tempo de execução |
Desconexão |
O número de placas de IA normais não corresponde à capacidade real. |
A GPU ou NPU está desconectada. |
A050206 |
Tempo de execução |
Outros |
O disco rígido do Kubelet é somente leitura. |
O diretório /mnt/paas/kubernetes/kubelet é somente leitura. |
A050801 |
Gerenciamento de nó |
O&M do nó |
O recurso é reservado. |
O nó é marcado como o nó em espera e contém uma mancha. |
A050802 |
Gerenciamento de nó |
O&M do nó |
Ocorre um erro desconhecido. |
O nó está marcado com uma mancha desconhecida. |
A200001 |
Gerenciamento de nó |
Atualização do driver |
A GPU está sendo atualizada. |
A GPU está sendo atualizada. |
A200002 |
Gerenciamento de nó |
Atualização do driver |
A NPU está sendo atualizada. |
A NPU está sendo atualizada. |
A200008 |
Gerenciamento de nó |
Admissão de nó |
A admissão está sendo examinada. |
A admissão está sendo examinada, incluindo verificação básica de configuração de nó e verificação de serviço simples. |
A050933 |
Gerenciamento de nó |
Tolerância a falhas de Failover |
O serviço de Failover no nó contaminado será migrado. |
O serviço de Failover no nó contaminado será migrado. |
A050931 |
Toolkit de treinamento |
Contêiner de pré-verificação |
Um erro de GPU é detectado no contêiner de pré-verificação. |
Um erro de GPU é detectado no contêiner de pré-verificação. |
A050932 |
Toolkit de treinamento |
Contêiner de pré-verificação |
Um erro de IB é detectado no contêiner de pré-verificação. |
Um erro de IB é detectado no contêiner de pré-verificação. |