Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-04-14 GMT+08:00

Conceptos comunes

HBase Table

Una tabla HBase es un mapa tridimensional que comprende una o más columnas o filas de datos.

Columna

Columna es una dimensión de una tabla HBase. El nombre de la columna tiene el formato <family>:<label> donde <family> y <label> pueden ser cualquier combinación de caracteres. Una tabla HBase consta de un conjunto de familias de columnas. Cada columna de la tabla HBase pertenece a una familia de columnas.

Familia de columnas

Una familia de columnas es una colección de columnas almacenadas en el esquema HBase. Para crear columnas, primero debe crear una familia de columnas. Una familia de columnas organiza los datos con la misma propiedad en HBase. Cada fila de datos de la misma familia de columnas se almacena en el mismo servidor. Cada familia de columnas puede ser un atributo, como paquetes comprimidos, marcas de tiempo y caché de bloques de datos.

MemStore

MemStore es un núcleo del almacenamiento de HBase. Cuando la cantidad de datos almacenados en WAL alcanza el límite superior, los datos se cargan a MemStore para su clasificación y almacenamiento.

RegionServer

RegionServer es un servicio que se ejecuta en cada DataNode en el clúster de HBase. Es responsable de servir y gestionar las regiones, cargar la información de carga de las regiones y gestionar los nodos maestros distribuidos.

Marca de tiempo

Una marca de tiempo es un entero de 64 bits utilizado para indexar diferentes versiones de los mismos datos. Una marca de tiempo puede ser asignada automáticamente por HBase cuando los datos son escritos o asignados por los usuarios.

Store

Store es un núcleo del almacenamiento de HBase. Un Store aloja un MemStore y varios StoreFiles. Un Store corresponde a una familia de columnas de una tabla de una región.

Índice

Un índice es una estructura de datos que mejora la eficiencia de la recuperación de datos en una tabla de base de datos. Una o más columnas en una tabla de base de datos se pueden utilizar para la recuperación aleatoria rápida de datos y el acceso eficiente a los registros ordenados.

Coprocesador

Un coprocesador es una interfaz proporcionada por HBase para implementar la lógica de cálculo en RegionServer. Los coprocesadores se clasifican en coprocesadores de sistema y coprocesadores de tabla. El primero puede importar todas las tablas de datos de RegionServer y el segundo puede procesar una tabla especificada.

Block Pool

Un block pool es una colección de bloques que pertenecen a un solo espacio de nombres. DataNodes almacena bloques de todos los grupos de bloques de un clúster. Cada grupo de bloques se gestiona de forma independiente, lo que permite que un espacio de nombres genere un ID para un nuevo bloque sin depender de otros espacios de nombres. Si un NameNode no es válido, el DataNode todavía puede proporcionar servicios para otros NameNodes en el clúster.

DataNode

Un DataNode es un nodo de trabajo en el clúster HDFS. Programado por el cliente o NameNode, DataNodes almacena y recupera datos y periódicamente reporta bloques de archivos a NameNodes.

Bloque de archivo

Un bloque de archivo es la unidad lógica mínima almacenada en el HDFS. Cada archivo HDFS se almacena en uno o más bloques de archivo. DataNodes almacena todos los bloques de archivo.

Réplica de bloque

Una réplica es una copia de bloque almacenada en HDFS. Un bloque de archivo almacena varias réplicas para la disponibilidad del sistema y la tolerancia a fallos.

Namespace Volume

Un namespace volume es una unidad de gestión independiente que consta de un namespace y su block pool. Cuando se elimina un NameNode o namespace, también se eliminan los grupos de bloques relacionados en el DataNode. Durante una actualización de clúster, cada volumen de espacio de nombres se actualiza como un todo.

NodeManager

NodeManager ejecuta aplicaciones, supervisa el uso de recursos (incluidos CPU, memoria, discos y recursos de red) de las aplicaciones e informa el uso de recursos al ResourceManager.

ResourceManager

ResourceManager programa los recursos requeridos por las aplicaciones. Proporciona un complemento de programación para asignar recursos de clúster a múltiples colas y aplicaciones. El complemento de programación programa los recursos en función de las capacidades existentes o utilizando el modelo de programación justa.

Partición

Cada tema se puede dividir en varias particiones. Cada partición corresponde a un archivo de log adjunto cuya secuencia es fija.

Seguidor

Un seguidor procesa las solicitudes de lectura y trabaja con un líder para procesar las solicitudes de escritura. También se puede utilizar como una copia de respaldo de líder. Cuando el líder es defectuoso, un seguidor es elegido para hacerse cargo de la carga de trabajo del líder para evitar un único punto de falla.

Observador

Los observadores no participan en la votación para las elecciones y escriben solicitudes. Solo procesan solicitudes de lectura y reenvían solicitudes de escritura al líder, mejorando la eficiencia del procesamiento.

Líder

Un líder de los grupos ZooKeeper es elegido por los seguidores usando el protocolo de Zookeeper Atomic Broadcast (ZAB). Recibe y programa todas las solicitudes de escritura y sincroniza la información escrita con seguidores y observadores.

CarbonData

A Carbon es una arquitectura abierta basada en Spark SQL. Integra el motor MOLAP desarrollado por Huawei y Spark, y construye rápidamente el motor de análisis multidimensional distribuido basado en Spark, acortando la duración del análisis de minutos a segundos y reforzando la capacidad de análisis multidimensional de Spark.

DStream

DStream es un concepto abstracto proporcionado por Spark Streaming. Es un flujo de datos continuo que se obtiene de la fuente de datos o el flujo de entrada transformado. En esencia, un DStream es una serie de conjuntos de datos distribuidos resilientes continuos (RDD).

Memoria en el montón

Un montón indica el área de datos donde se está ejecutando la máquina virtual de Java (JVM) y desde la que se ha comprometido la memoria para todas las instancias de clase y matrices. Los parámetros de inicio de JVM -Xms y -Xmx se utilizan para establecer la memoria en el montón inicial y la memoria en el montón máxima, respectivamente.

  • Memoria en el montón máxima: memoria en el montón que el sistema puede asignar a un programa como máximo, especificada por el parámetro -Xmx.
  • Memoria en el montón asignada: memoria en el montón total asignada por el sistema para ejecutar un programa. Se extiende desde la memoria en el montón inicial y la memoria en el montón máxima.
  • Memoria en el montón usada: memoria en el montón usada por un programa. Es más pequeño que la memoria en el montón asignada.
  • Memoria no acumulativa: memoria excluida de los montones de JVM y del área de memoria para ejecutar la JVM. La memoria no acumulativa tiene los tres grupos de memoria siguientes:
    • Caché de código: almacena el código compilado de JIT. Su valor se establece a través del parámetro de inicio de JVM -XX:InitialCodeCacheSize -XX:ReservedCodeCacheSize. El valor predeterminado es 240 MB.
    • Espacio de clase comprimido: almacena metadatos de un puntero. Su valor se establece a través del parámetro de inicio de JVM -XX:CompressedClassSpaceSize. El valor predeterminado es 1024 MB.
    • Metaspace: almacena metadatos. Su valor se establece a través del parámetro de inicio de JVM -XX:MetaspaceSize -XX:MaxMetaspaceSize.
  • Máxima memoria no acumulativa: memoria no acumulativa asignada a un programa como máximo por el sistema. Su valor es la suma de los valores máximos de Code Cache, Compressed Class Space y Metaspace.
  • Memoria no acumulativa asignada: memoria no acumulativa total asignada por el sistema para ejecutar un programa. Se extiende desde la memoria inicial no acumulativa y la memoria máxima no acumulativa.
  • Memoria no acumulativa usada: memoria no acumulativa que ha sido usada por aprogram. Es más pequeño que la memoria no acumulada.

Hadoop

Hadoop es un marco de sistema distribuido. Permite a los usuarios desarrollar aplicaciones distribuidas utilizando computación de alta velocidad y almacenamiento proporcionado por clústeres sin conocer los detalles subyacentes del sistema distribuido. También puede procesar de manera fiable y eficiente cantidades masivas de datos en modo escalable y distribuido. Hadoop es confiable porque mantiene múltiples duplicados de datos de trabajo, lo que permite el procesamiento distribuido para nodos con errores. Hadoop es altamente eficiente porque procesa datos en modo paralelo. Hadoop es escalable porque puede procesar petabytes de datos. Hadoop está compuesto por HDFS, MapReduce, HBase, y Hive.

Rol

Un rol es un elemento de un servicio. Un servicio contiene uno o varios roles. Los servicios se instalan en los servidores a través de roles para que puedan ejecutarse correctamente.

Clúster

Un clúster es una tecnología informática que permite que varios servidores funcionen como un solo servidor. Los clústeres mejoran la estabilidad, la confiabilidad y la capacidad de procesamiento o servicio de datos del sistema. Por ejemplo, los clústeres pueden evitar fallos de punto único (SPOF), compartir recursos de almacenamiento, reducir la carga del sistema y mejorar el rendimiento del sistema.

instancia

Se forma una instancia cuando se instala un rol de servicio en el host. Un servicio tiene una o más instancias de rol.

Metadatos

Los metadatos son datos que proporcionan información sobre otros datos y también se denominan datos de medios o datos de retransmisión. Se utiliza para definir propiedades de datos, especificar ubicaciones de almacenamiento de datos y datos históricos, recuperar recursos y archivos de registro.