Relación entre Hive y otros componentes
Relación entre Hive y HDFS
Hive es un subproyecto de Apache Hadoop, que utiliza HDFS como sistema de almacenamiento de archivos. Analiza y procesa datos estructurados con almacenamiento subyacente altamente confiable soportado por HDFS. Todos los archivos de datos de la base de datos Hive se almacenan en HDFS, y todas las operaciones de datos en Hive también se realizan mediante API de HDFS.
Relación entre Hive y MapReduce
El cálculo de datos de Hive depende de MapReduce. MapReduce es también un subproyecto de Apache Hadoop y es un marco de computación paralelo basado en HDFS. Durante el análisis de datos, Hive analiza las sentencias de HQL enviadas por los usuarios en tareas de MapReduce y envía las tareas para que MapReduce las ejecute.
Relación entre Hive y Tez
Tez, un proyecto de código abierto de Apache, es un marco de computación distribuida que soporta gráficos acíclicos dirigidos (DAG). Cuando Hive utiliza el motor de Tez para analizar datos, analiza las sentencias de HQL enviadas por los usuarios en tareas de Tez y envía las tareas a Tez para su ejecución.
Relación entre Hive y DBService
MetaStore (servicio de metadatos) de Hive procesa la estructura y la información de atributos de los metadatos de Hive, como bases de datos, tablas y particiones de Hive. La información debe almacenarse en una base de datos relacional y es gestionada y procesada por MetaStore. En el producto, los metadatos de Hive son almacenados y mantenidos por el componente de DBService, y el servicio de metadatos es proporcionado por el componente de Metadata.