Princípios básicos do Flume
O Flume é um sistema distribuído confiável e de HA que suporta coleta, agregação e transmissão de logs em massa. O Flume suporta a personalização de vários remetentes de dados no sistema de registro para coleta de dados. Além disso, o Flume pode processar dados e gravar dados em vários receptores de dados (personalizáveis). Flume-NG é um ramo do Flume. É simples, pequeno e fácil de implantar. A figura a seguir mostra a arquitetura básica do Flume-NG.
Um Flume-NG consiste em agentes. Cada agente consiste em três componentes (fonte, canal e coletor). Uma fonte é usada para receber dados. Um canal é usado para transmitir dados. Um coletor é usado para enviar dados para a próxima extremidade.
Módulo |
Descrição |
---|---|
Fonte |
Uma fonte recebe dados ou gera dados usando um mecanismo especial e coloca os dados em lotes em um ou mais canais. A fonte pode funcionar no modo orientado a dados ou sondagem. Os tipos de fonte típicos são os seguintes:
Uma fonte deve estar associada a pelo menos um canal. |
Canal |
Um canal é usado para armazenar dados entre uma origem e um coletor. O canal armazena em cache os dados da fonte e exclui esses dados depois que o coletor envia os dados para o canal do próximo salto ou destino final. Diferentes canais fornecem diferentes níveis de persistência.
O canal suporta o recurso de transação para garantir operações sequenciais simples. Um canal pode trabalhar com fontes e sumidouros de qualquer quantidade. |
Coletor |
Um coletor envia dados para o canal do próximo salto ou destino final. Uma vez concluído, os dados transmitidos são removidos do canal. Os tipos típicos de coletor são os seguintes:
Um coletor deve estar associado a um canal específico. |
Como mostrado em Figura 2, um cliente de Flume pode ter várias fontes, canais e coletores.
A confiabilidade do Flume depende da troca de transações entre agentes. Se o próximo agente quebrar, o canal armazenará os dados de forma persistente e transmitirá os dados até que o agente se recupere. A disponibilidade do Flume depende dos mecanismos integrados de balanceamento de carga e failover. Tanto o canal quanto o agente podem ser configurados com várias entidades entre as quais eles podem usar políticas de balanceamento de carga. Cada agente é um processo de Máquina Virtual Java (JVM). Um servidor pode ter vários agentes. Os nós de coleta (por exemplo, Agentes 1, 2, 3) processam logs. Os nós de agregação (por exemplo, Agente 4) gravam os logs no HDFS. O agente de cada nó de coleta pode selecionar vários nós de agregação para balanceamento de carga.
Para obter detalhes sobre a arquitetura e os princípios do Flume, consulte https://flume.apache.org/releases/1.9.0.html.
Princípio
Confiabilidade entre agentes
Figura 4 mostra a troca de dados entre os agentes.
- O Flume garante transmissão de dados confiável com base em transações. Quando os dados fluem de um agente para outro agente, as duas transações entram em vigor. O coletor do Agente 1 (agente que envia uma mensagem) precisa obter uma mensagem de um canal e envia a mensagem para o Agente 2 (agente que recebe a mensagem). Se o Agente 2 receber e processar com sucesso a mensagem, o Agente 1 enviará uma transação, indicando uma transmissão de dados bem-sucedida e confiável.
- Quando o Agente 2 recebe a mensagem enviada pelo Agente 1 e inicia uma nova transação, depois que os dados são processados com sucesso (gravados em um canal), o Agente 2 envia a transação e envia uma resposta bem-sucedida ao Agente 1.
- Antes de uma operação de confirmação, se a transmissão de dados falhar, a última transcrição é iniciada e retransmite os dados que não foram transmitidos da última vez. A operação de commit gravou a transação em um disco. Portanto, a última transação pode continuar após o processo falhar e restaurar.