Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-09-18 GMT+08:00

Recuperação de falhas

A infraestrutura global do ModelArts foi criada para regiões e AZs da Huawei Cloud. Uma região da Huawei Cloud fornece várias AZs fisicamente independentes e isoladas que são conectadas por meio de redes com baixa latência, alta taxa de transferência e alta redundância. Você pode projetar e operar aplicações e bancos de dados defeituosos migrados automaticamente entre AZs sem interromper os serviços. Em comparação com a infraestrutura tradicional de um único data center ou vários data centers, as AZs oferecem maior disponibilidade, tolerância a falhas e escalabilidade.

O ModelArts faz backup de seus dados de banco de dados para recuperação em caso de falha de serviço ou danos aos dados originais.

Recuperação do ambiente de falha

Se um nó de computação usado por uma instância de notebook estiver com defeito, a instância será migrada automaticamente para outro nó disponível. Em seguida, a instância é restaurada. O ModelArts permite que você monte um disco EVS em uma instância. O EVS da Huawei Cloud fornece armazenamento em bloco escalável que apresenta alta confiabilidade, alto desempenho e uma variedade de especificações para servidores. A durabilidade de dados atinge 99,9999999%.

Recuperação automática de uma falha de treinamento

Durante o treinamento do modelo, uma falha de treinamento pode ocorrer devido a uma falha de hardware. Para falhas de hardware, o ModelArts fornece verificação de tolerância a falhas para isolar nós defeituosos e melhorar a experiência do usuário no treinamento.

A verificação de tolerância a falhas envolve a pré-verificação do ambiente e a verificação periódica do hardware. Se alguma falha for detectada durante uma das verificações, o ModelArts isola automaticamente o hardware defeituoso e emite o trabalho de treinamento novamente. No treinamento distribuído, a verificação de tolerância a falhas será executada em todos os nós de computação usados pelo trabalho de treinamento.

Recuperação de uma falha de implementação de inferência

Durante a execução do serviço, se uma instância de inferência apresentar defeito devido a uma falha de hardware, o ModelArts detecta automaticamente a falha e migra a instância defeituosa para outro nó disponível. Depois que a instância for reiniciada, ela será restaurada. O nó defeituoso é automaticamente isolado e não agendado para instâncias de inferência em execução.