Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2023-05-19 GMT+08:00

Princípios básicos do Flume

O Flume é um sistema distribuído confiável e de HA que suporta coleta, agregação e transmissão de logs em massa. O Flume suporta a personalização de vários remetentes de dados no sistema de registro para coleta de dados. Além disso, o Flume pode processar dados e gravar dados em vários receptores de dados (personalizáveis). Flume-NG é um ramo do Flume. É simples, pequeno e fácil de implantar. A figura a seguir mostra a arquitetura básica do Flume-NG.

Figura 1 Arquitetura do Flume-NG

Um Flume-NG consiste em agentes. Cada agente consiste em três componentes (fonte, canal e coletor). Uma fonte é usada para receber dados. Um canal é usado para transmitir dados. Um coletor é usado para enviar dados para a próxima extremidade.

Tabela 1 Descrição do módulo

Módulo

Descrição

Fonte

Uma fonte recebe dados ou gera dados usando um mecanismo especial e coloca os dados em lotes em um ou mais canais. A fonte pode funcionar no modo orientado a dados ou sondagem.

Os tipos de fonte típicos são os seguintes:

  • Fontes que integram ao sistema, como Syslog e Netcat
  • Fontes que geram eventos automaticamente, como Exec e SEQ
  • IPC fontes que são usadas para comunicação entre agentes, como Avro

Uma fonte deve estar associada a pelo menos um canal.

Canal

Um canal é usado para armazenar dados entre uma origem e um coletor. O canal armazena em cache os dados da fonte e exclui esses dados depois que o coletor envia os dados para o canal do próximo salto ou destino final.

Diferentes canais fornecem diferentes níveis de persistência.

  • Canal de memória: não persistência
  • Canal de arquivo: persistência baseada em registro de gravação antecipada (WAL)
  • Canal JDBC: persistência implementada com base no banco de dados embarcado

O canal suporta o recurso de transação para garantir operações sequenciais simples. Um canal pode trabalhar com fontes e sumidouros de qualquer quantidade.

Coletor

Um coletor envia dados para o canal do próximo salto ou destino final. Uma vez concluído, os dados transmitidos são removidos do canal.

Os tipos típicos de coletor são os seguintes:

  • Coletores que enviam dados de armazenamento para o destino final, como HDFS e HBase
  • Coletores que são consumidos automaticamente, como Null Sink
  • IPC coletores usados para comunicação entre agentes, como o Avro

Um coletor deve estar associado a um canal específico.

Como mostrado em Figura 2, um cliente de Flume pode ter várias fontes, canais e coletores.

Figura 2 Estrutura do Flume

A confiabilidade do Flume depende da troca de transações entre agentes. Se o próximo agente quebrar, o canal armazenará os dados de forma persistente e transmitirá os dados até que o agente se recupere. A disponibilidade do Flume depende dos mecanismos integrados de balanceamento de carga e failover. Tanto o canal quanto o agente podem ser configurados com várias entidades entre as quais eles podem usar políticas de balanceamento de carga. Cada agente é um processo de Máquina Virtual Java (JVM). Um servidor pode ter vários agentes. Os nós de coleta (por exemplo, Agentes 1, 2, 3) processam logs. Os nós de agregação (por exemplo, Agente 4) gravam os logs no HDFS. O agente de cada nó de coleta pode selecionar vários nós de agregação para balanceamento de carga.

Figura 3 Cascata de Flume

Para obter detalhes sobre a arquitetura e os princípios do Flume, consulte https://flume.apache.org/releases/1.9.0.html.

Princípio

Confiabilidade entre agentes

Figura 4 mostra a troca de dados entre os agentes.

Figura 4 Processo de transmissão de dados
  1. O Flume garante transmissão de dados confiável com base em transações. Quando os dados fluem de um agente para outro agente, as duas transações entram em vigor. O coletor do Agente 1 (agente que envia uma mensagem) precisa obter uma mensagem de um canal e envia a mensagem para o Agente 2 (agente que recebe a mensagem). Se o Agente 2 receber e processar com sucesso a mensagem, o Agente 1 enviará uma transação, indicando uma transmissão de dados bem-sucedida e confiável.
  2. Quando o Agente 2 recebe a mensagem enviada pelo Agente 1 e inicia uma nova transação, depois que os dados são processados com sucesso (gravados em um canal), o Agente 2 envia a transação e envia uma resposta bem-sucedida ao Agente 1.
  3. Antes de uma operação de confirmação, se a transmissão de dados falhar, a última transcrição é iniciada e retransmite os dados que não foram transmitidos da última vez. A operação de commit gravou a transação em um disco. Portanto, a última transação pode continuar após o processo falhar e restaurar.