Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ MapReduce Service/ Visão geral de serviço/ Componentes/ Kudu

Atualizado em 2023-05-19 GMT+08:00

Ver PDF

Kudu

Kudu é um gerenciador de lojas de colunas desenvolvido para a plataforma Apache Hadoop. O Kudu compartilha as propriedades técnicas comuns dos aplicativos do ecossistema Hadoop, ou seja, ele é executado em hardware de mercadoria, que é escalável horizontalmente, oferecendo alta disponibilidade.

O design do Kudu tem os seguintes benefícios:

Processamento rápido de cargas de trabalho OLAP
Integração com o MapReduce e outros componentes do ecossistema Hadoop
Integração apertada com o Apache Impala, tornando-o uma boa alternativa mutável ao uso do HDFS com o Apache Parquet
Modelo de consistência forte, mas flexível, permitindo que você escolha requisitos de consistência em uma base por solicitação, incluindo a opção de consistência rigorosa-serializável
Forte desempenho para executar cargas de trabalho sequenciais e aleatórias simultaneamente
Gerenciamento fácil
Os servidores Tablet e Masters de alta disponibilidade usam o Algoritmo de consenso Raft, que garante que, desde que mais da metade do número total de réplicas esteja disponível, o tablet esteja disponível para leituras e gravações. Por exemplo, se 2 de 3 réplicas ou 3 de 5 réplicas estiverem disponíveis, o tablet estará disponível. As leituras podem ser atendidas por tablets seguidores somente de leitura, mesmo em caso de falha de um tablet líder.
Modelo de dados estruturado

Combinando todas essas propriedades, o Kudu visa o suporte para famílias de aplicativos que são difíceis ou impossíveis de implementar nas tecnologias de armazenamento do Hadoop da geração atual.

Alguns exemplos de aplicações para as quais o Kudu é uma ótima solução são:

Aplicações de relatório em que os dados recém-chegados precisam estar imediatamente disponíveis para os usuários finais
Aplicações de séries temporais que devem oferecer suporte simultâneo a consultas em grandes quantidades de dados históricos e consultas granulares sobre uma entidade individual que deve retornar muito rapidamente
Aplicações que usam modelos preditivos para tomar decisões em tempo real com atualizações periódicas do modelo preditivo com base em todos os dados históricos

Tópico principal: Componentes

Tópico anterior: Recursos de código aberto aprimorados de KrbServer e LdapServer

Próximo tópico: Loader