Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2023-05-19 GMT+08:00

Kudu

Kudu é um gerenciador de lojas de colunas desenvolvido para a plataforma Apache Hadoop. O Kudu compartilha as propriedades técnicas comuns dos aplicativos do ecossistema Hadoop, ou seja, ele é executado em hardware de mercadoria, que é escalável horizontalmente, oferecendo alta disponibilidade.

O design do Kudu tem os seguintes benefícios:

  • Processamento rápido de cargas de trabalho OLAP
  • Integração com o MapReduce e outros componentes do ecossistema Hadoop
  • Integração apertada com o Apache Impala, tornando-o uma boa alternativa mutável ao uso do HDFS com o Apache Parquet
  • Modelo de consistência forte, mas flexível, permitindo que você escolha requisitos de consistência em uma base por solicitação, incluindo a opção de consistência rigorosa-serializável
  • Forte desempenho para executar cargas de trabalho sequenciais e aleatórias simultaneamente
  • Gerenciamento fácil
  • Os servidores Tablet e Masters de alta disponibilidade usam o Algoritmo de consenso Raft, que garante que, desde que mais da metade do número total de réplicas esteja disponível, o tablet esteja disponível para leituras e gravações. Por exemplo, se 2 de 3 réplicas ou 3 de 5 réplicas estiverem disponíveis, o tablet estará disponível. As leituras podem ser atendidas por tablets seguidores somente de leitura, mesmo em caso de falha de um tablet líder.
  • Modelo de dados estruturado

Combinando todas essas propriedades, o Kudu visa o suporte para famílias de aplicativos que são difíceis ou impossíveis de implementar nas tecnologias de armazenamento do Hadoop da geração atual.

Alguns exemplos de aplicações para as quais o Kudu é uma ótima solução são:
  • Aplicações de relatório em que os dados recém-chegados precisam estar imediatamente disponíveis para os usuários finais
  • Aplicações de séries temporais que devem oferecer suporte simultâneo a consultas em grandes quantidades de dados históricos e consultas granulares sobre uma entidade individual que deve retornar muito rapidamente
  • Aplicações que usam modelos preditivos para tomar decisões em tempo real com atualizações periódicas do modelo preditivo com base em todos os dados históricos