Relação entre Hive e outros componentes
Relação entre Hive e HDFS
O Hive é um subprojeto do Apache Hadoop, que usa o HDFS como sistema de armazenamento de arquivos. Ele analisa e processa dados estruturados com armazenamento subjacente altamente confiável suportado pelo HDFS. Todos os arquivos de dados no banco de dados do Hive são armazenados no HDFS, e todas as operações de dados no Hive também são realizadas usando APIs do HDFS.
Relação entre Hive e MapReduce
A computação de dados do Hive depende do MapReduce. MapReduce também é um sub-projeto do Apache Hadoop e é uma estrutura de computação paralela baseado em HDFS. Durante a análise de dados, o Hive analisa as instruções HQL enviadas pelos usuários em tarefas de MapReduce e envia as tarefas para o MapReduce executar.
Relação entre Hive e Tez
Tez, um projeto de código aberto do Apache, é uma estrutura de computação distribuída que suporta grafos acíclicos direcionados (DAGs). Quando o Hive usa o mecanismo Tez para analisar dados, ele analisa as instruções HQL enviadas pelos usuários em tarefas de Tez e envia as tarefas ao Tez para execução.
Relação entre Hive e DBService
O MetaStore (serviço de metadados) do Hive processa as informações de estrutura e atributo dos metadados do Hive, como bancos de dados, tabelas e partições do Hive. As informações precisam ser armazenadas em um banco de dados relacional e são gerenciadas e processadas pelo MetaStore. No produto, os metadados do Hive são armazenados e mantidos pelo componente DBService e o serviço de metadados é fornecido pelo componente Metadata.