Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2023-05-19 GMT+08:00

Aprimoramento da confiabilidade

Baseado no software de código aberto Apache Hadoop, o MRS otimiza e melhora a confiabilidade e o desempenho dos principais componentes do serviço.

Confiabilidade do sistema

  • HA para todos os nós de gerenciamento

    Na versão de código aberto do Hadoop, os dados e nós de computação são gerenciados em um sistema distribuído, no qual um único ponto de falha (SPOF) não afeta a operação de todo o sistema. No entanto, um SPOF pode ocorrer em nós de gerenciamento em execução no modo centralizado, o que se torna o ponto fraco da confiabilidade geral do sistema.

    O MRS fornece mecanismos semelhantes de nó duplo para todos os nós de gerenciamento dos componentes de serviço, como Manager, HDFS NameNodes, HiveServers, HBase HMasters, Yarn ResourceManagers, KerberosServers e LdapServers. Todos eles são implementados no modo ativo/em espera ou configurados com compartilhamento de carga, impedindo efetivamente que os SPOFs afetem a confiabilidade do sistema.

  • Garantia de confiabilidade em caso de excepções

    Por análise de confiabilidade, as seguintes medidas para lidar com exceções de software e hardware são fornecidas para melhorar a confiabilidade do sistema:

    • Depois que a fonte de alimentação é restaurada, os serviços funcionam adequadamente, independentemente de uma falha de energia de um único nó ou de todo o cluster, garantindo a confiabilidade dos dados em caso de falhas de energia inesperadas. Os dados-chave não serão perdidos a menos que o disco rígido esteja danificado.
    • As verificações de status de integridade e o tratamento de falhas do disco rígido não afetam os serviços.
    • As falhas do sistema de arquivos podem ser tratadas automaticamente e os serviços afetados podem ser restaurados automaticamente.
    • As falhas de processo e nó podem ser tratadas automaticamente e os serviços afetados podem ser restaurados automaticamente.
    • As falhas de rede podem ser tratadas automaticamente e os serviços afetados podem ser restaurados automaticamente.
  • Backup e restauração de dados

    O MRS fornece funções de backup completo, backup incremental e restauração com base nos requisitos de serviço, evitando o impacto da perda de dados e danos nos serviços e garantindo a restauração rápida do sistema em caso de exceções.

    • Backup automático

      O MRS fornece backup automático para dados no Manager. Com base na política de backup personalizada, os dados em clusters, incluindo no LdapServer e DBService, podem ser automaticamente copiados.

    • Backup manual

      Você também pode fazer backup manual dos dados do sistema de gerenciamento de cluster antes da expansão de capacidade e instalação de patch para recuperar as funções do sistema de gerenciamento de cluster em caso de falhas.

      Para melhorar a confiabilidade do sistema, o backup dos dados no Manager e no HBase é feito manualmente em um servidor de terceiros.

Confiabilidade do nó

  • Monitoramento do status de integridade do sistema operacional

    O MRS coleta periodicamente dados de uso de recursos de hardware do SO, incluindo o uso de CPUs, memória, discos rígidos e recursos de rede.

  • Monitoramento do status de integridade do processo

    O MRS verifica o status das instâncias de serviço e os indicadores de integridade dos processos da instância de serviço, permitindo que você conheça o status de integridade dos processos em tempo hábil.

  • Solução automática de problemas de disco

    O MRS é aprimorado com base na versão de código aberto. Ele pode monitorar o status do hardware e dos sistemas de arquivos em todos os nós. Se ocorrer uma exceção, as partições correspondentes serão removidas do pool de armazenamento. Se um disco estiver com defeito e for substituído, um novo disco rígido será adicionado para executar serviços. Neste caso, as operações de manutenção são simplificadas. A substituição de discos defeituosos pode ser concluída on-line. Além disso, os usuários podem definir discos de backup quentes para reduzir o tempo de restauração do disco defeituoso e melhorar a confiabilidade do sistema.

  • Configuração de LVM para discos de nó

    O MRS permite configurar o Gerenciamento de volume lógico (LVM) para planejar vários discos como um grupo de volumes lógicos. A configuração do LVM pode evitar o uso irregular de discos. É especialmente importante garantir o uso uniforme de discos em componentes que podem usar vários recursos de disco, como HDFS e Kafka. Além disso, o LVM suporta expansão de capacidade de disco sem reanexar, evitando a interrupção do serviço.

Confiabilidade de dados

O MRS pode usar os recursos de grupos de nós antiafinidade e grupos de posicionamento fornecidos pelo ECS e o recurso de reconhecimento de rack do Hadoop para distribuir dados de forma redundante para vários computadores host físicos, evitando a perda de dados causada por falhas de hardware físico.