Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ MapReduce Service/ Visão geral de serviço/ Componentes/ Flume/ Princípios básicos do Flume

Atualizado em 2023-05-19 GMT+08:00

Ver PDF

Princípios básicos do Flume

O Flume é um sistema distribuído confiável e de HA que suporta coleta, agregação e transmissão de logs em massa. O Flume suporta a personalização de vários remetentes de dados no sistema de registro para coleta de dados. Além disso, o Flume pode processar dados e gravar dados em vários receptores de dados (personalizáveis). Flume-NG é um ramo do Flume. É simples, pequeno e fácil de implantar. A figura a seguir mostra a arquitetura básica do Flume-NG.

Figura 1 Arquitetura do Flume-NG
Clique para ampliar

Um Flume-NG consiste em agentes. Cada agente consiste em três componentes (fonte, canal e coletor). Uma fonte é usada para receber dados. Um canal é usado para transmitir dados. Um coletor é usado para enviar dados para a próxima extremidade.

**Tabela 1** Descrição do módulo
Módulo	Descrição
Fonte	Uma fonte recebe dados ou gera dados usando um mecanismo especial e coloca os dados em lotes em um ou mais canais. A fonte pode funcionar no modo orientado a dados ou sondagem. Os tipos de fonte típicos são os seguintes: Fontes que integram ao sistema, como Syslog e Netcat Fontes que geram eventos automaticamente, como Exec e SEQ IPC fontes que são usadas para comunicação entre agentes, como Avro Uma fonte deve estar associada a pelo menos um canal.
Canal	Um canal é usado para armazenar dados entre uma origem e um coletor. O canal armazena em cache os dados da fonte e exclui esses dados depois que o coletor envia os dados para o canal do próximo salto ou destino final. Diferentes canais fornecem diferentes níveis de persistência. Canal de memória: não persistência Canal de arquivo: persistência baseada em registro de gravação antecipada (WAL) Canal JDBC: persistência implementada com base no banco de dados embarcado O canal suporta o recurso de transação para garantir operações sequenciais simples. Um canal pode trabalhar com fontes e sumidouros de qualquer quantidade.
Coletor	Um coletor envia dados para o canal do próximo salto ou destino final. Uma vez concluído, os dados transmitidos são removidos do canal. Os tipos típicos de coletor são os seguintes: Coletores que enviam dados de armazenamento para o destino final, como HDFS e HBase Coletores que são consumidos automaticamente, como Null Sink IPC coletores usados para comunicação entre agentes, como o Avro Um coletor deve estar associado a um canal específico.

Como mostrado em Figura 2, um cliente de Flume pode ter várias fontes, canais e coletores.

Figura 2 Estrutura do Flume
Clique para ampliar

A confiabilidade do Flume depende da troca de transações entre agentes. Se o próximo agente quebrar, o canal armazenará os dados de forma persistente e transmitirá os dados até que o agente se recupere. A disponibilidade do Flume depende dos mecanismos integrados de balanceamento de carga e failover. Tanto o canal quanto o agente podem ser configurados com várias entidades entre as quais eles podem usar políticas de balanceamento de carga. Cada agente é um processo de Máquina Virtual Java (JVM). Um servidor pode ter vários agentes. Os nós de coleta (por exemplo, Agentes 1, 2, 3) processam logs. Os nós de agregação (por exemplo, Agente 4) gravam os logs no HDFS. O agente de cada nó de coleta pode selecionar vários nós de agregação para balanceamento de carga.

Figura 3 Cascata de Flume
Clique para ampliar

Para obter detalhes sobre a arquitetura e os princípios do Flume, consulte https://flume.apache.org/releases/1.9.0.html.

Princípio

Confiabilidade entre agentes

Figura 4 mostra a troca de dados entre os agentes.

Figura 4 Processo de transmissão de dados
Clique para ampliar

O Flume garante transmissão de dados confiável com base em transações. Quando os dados fluem de um agente para outro agente, as duas transações entram em vigor. O coletor do Agente 1 (agente que envia uma mensagem) precisa obter uma mensagem de um canal e envia a mensagem para o Agente 2 (agente que recebe a mensagem). Se o Agente 2 receber e processar com sucesso a mensagem, o Agente 1 enviará uma transação, indicando uma transmissão de dados bem-sucedida e confiável.
Quando o Agente 2 recebe a mensagem enviada pelo Agente 1 e inicia uma nova transação, depois que os dados são processados com sucesso (gravados em um canal), o Agente 2 envia a transação e envia uma resposta bem-sucedida ao Agente 1.
Antes de uma operação de confirmação, se a transmissão de dados falhar, a última transcrição é iniciada e retransmite os dados que não foram transmitidos da última vez. A operação de commit gravou a transação em um disco. Portanto, a última transação pode continuar após o processo falhar e restaurar.

Tópico principal: Flume

Tópico anterior: Flume

Próximo tópico: Relação entre Flume e outros componentes