Aprimoramento da confiabilidade
Baseado no software de código aberto Apache Hadoop, o MRS otimiza e melhora a confiabilidade e o desempenho dos principais componentes do serviço.
Confiabilidade do sistema
- HA para todos os nós de gerenciamento
Na versão de código aberto do Hadoop, os dados e nós de computação são gerenciados em um sistema distribuído, no qual um único ponto de falha (SPOF) não afeta a operação de todo o sistema. No entanto, um SPOF pode ocorrer em nós de gerenciamento em execução no modo centralizado, o que se torna o ponto fraco da confiabilidade geral do sistema.
O MRS fornece mecanismos semelhantes de nó duplo para todos os nós de gerenciamento dos componentes de serviço, como Manager, HDFS NameNodes, HiveServers, HBase HMasters, Yarn ResourceManagers, KerberosServers e LdapServers. Todos eles são implementados no modo ativo/em espera ou configurados com compartilhamento de carga, impedindo efetivamente que os SPOFs afetem a confiabilidade do sistema.
- Garantia de confiabilidade em caso de excepções
Por análise de confiabilidade, as seguintes medidas para lidar com exceções de software e hardware são fornecidas para melhorar a confiabilidade do sistema:
- Depois que a fonte de alimentação é restaurada, os serviços funcionam adequadamente, independentemente de uma falha de energia de um único nó ou de todo o cluster, garantindo a confiabilidade dos dados em caso de falhas de energia inesperadas. Os dados-chave não serão perdidos a menos que o disco rígido esteja danificado.
- As verificações de status de integridade e o tratamento de falhas do disco rígido não afetam os serviços.
- As falhas do sistema de arquivos podem ser tratadas automaticamente e os serviços afetados podem ser restaurados automaticamente.
- As falhas de processo e nó podem ser tratadas automaticamente e os serviços afetados podem ser restaurados automaticamente.
- As falhas de rede podem ser tratadas automaticamente e os serviços afetados podem ser restaurados automaticamente.
- Backup e restauração de dados
O MRS fornece funções de backup completo, backup incremental e restauração com base nos requisitos de serviço, evitando o impacto da perda de dados e danos nos serviços e garantindo a restauração rápida do sistema em caso de exceções.
- Backup automático
O MRS fornece backup automático para dados no Manager. Com base na política de backup personalizada, os dados em clusters, incluindo no LdapServer e DBService, podem ser automaticamente copiados.
- Backup manual
Você também pode fazer backup manual dos dados do sistema de gerenciamento de cluster antes da expansão de capacidade e instalação de patch para recuperar as funções do sistema de gerenciamento de cluster em caso de falhas.
Para melhorar a confiabilidade do sistema, o backup dos dados no Manager e no HBase é feito manualmente em um servidor de terceiros.
- Backup automático
Confiabilidade do nó
- Monitoramento do status de integridade do sistema operacional
O MRS coleta periodicamente dados de uso de recursos de hardware do SO, incluindo o uso de CPUs, memória, discos rígidos e recursos de rede.
- Monitoramento do status de integridade do processo
O MRS verifica o status das instâncias de serviço e os indicadores de integridade dos processos da instância de serviço, permitindo que você conheça o status de integridade dos processos em tempo hábil.
- Solução automática de problemas de disco
O MRS é aprimorado com base na versão de código aberto. Ele pode monitorar o status do hardware e dos sistemas de arquivos em todos os nós. Se ocorrer uma exceção, as partições correspondentes serão removidas do pool de armazenamento. Se um disco estiver com defeito e for substituído, um novo disco rígido será adicionado para executar serviços. Neste caso, as operações de manutenção são simplificadas. A substituição de discos defeituosos pode ser concluída on-line. Além disso, os usuários podem definir discos de backup quentes para reduzir o tempo de restauração do disco defeituoso e melhorar a confiabilidade do sistema.
- Configuração de LVM para discos de nó
O MRS permite configurar o Gerenciamento de volume lógico (LVM) para planejar vários discos como um grupo de volumes lógicos. A configuração do LVM pode evitar o uso irregular de discos. É especialmente importante garantir o uso uniforme de discos em componentes que podem usar vários recursos de disco, como HDFS e Kafka. Além disso, o LVM suporta expansão de capacidade de disco sem reanexar, evitando a interrupção do serviço.
Confiabilidade de dados
O MRS pode usar os recursos de grupos de nós antiafinidade e grupos de posicionamento fornecidos pelo ECS e o recurso de reconhecimento de rack do Hadoop para distribuir dados de forma redundante para vários computadores host físicos, evitando a perda de dados causada por falhas de hardware físico.