Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2023-05-19 GMT+08:00

Conceitos comuns

Tabela HBase

Uma tabela HBase é um mapa tridimensional composto por uma ou mais colunas ou linhas de dados.

Coluna

Coluna é uma dimensão de uma tabela HBase. O nome da coluna está no formato de <family>:<label>, onde <family> e <label> podem ser qualquer combinação de caracteres. Uma tabela HBase consiste em um conjunto de famílias de colunas. Cada coluna na tabela HBase pertence a uma família de colunas.

Família de colunas

Uma família de colunas é uma coleção de colunas armazenadas no esquema HBase. Para criar colunas, primeiro você deve criar uma família de colunas. Uma família de colunas organiza dados com a mesma propriedade no HBase. Cada linha de dados na mesma família de colunas é armazenada no mesmo servidor. Cada família de colunas pode ser um atributo, como pacotes compactados, carimbos de data/hora e cache de blocos de dados.

MemStore

O MemStore é o núcleo do armazenamento de HBase. Quando a quantidade de dados armazenados no WAL atinge o limite superior, os dados são carregados em MemStore para classificação e armazenamento.

RegionServer

RegionServer é um serviço em execução em cada DataNode no cluster de HBase. Ele é responsável por atender e gerenciar regiões, fazer upload das informações de carga das regiões e gerenciar nós mestres distribuídos.

Carimbo de data/hora

Um carimbo de data/hora é um número inteiro de 64-bit usado para indexar diferentes versões dos mesmos dados. Um carimbo de data/hora pode ser atribuído automaticamente pelo HBase quando os dados são gravados ou atribuídos pelos usuários.

Store

Store é um núcleo do armazenamento HBase. Um Store hospeda um MemStore e vários StoreFiles. Um Store corresponde a uma família de colunas de uma tabela em uma região.

Índice

Um índice é uma estrutura de dados que melhora a eficiência da recuperação de dados em uma tabela de banco de dados. Uma ou mais colunas em uma tabela de banco de dados podem ser usadas para recuperação aleatória rápida de dados e acesso eficiente a registros ordenados.

Coprocessador

Um coprocessador é uma interface fornecida pelo HBase para implementar a lógica de cálculo no RegionServer. Os coprocessadores são classificados em coprocessadores de sistema e coprocessadores de tabela. O primeiro pode importar todas as tabelas de dados no RegionServer e o segundo pode processar uma tabela especificada.

Pool de blocos

Um pool de blocos é uma coleção de blocos que pertencem a um único namespace. DataNodes armazena blocos de todos os pools de blocos em um cluster. Cada pool de blocos é gerenciado de forma independente, o que permite que um namespace gere um ID para um novo bloco sem depender de outros namespaces. Se um NameNode for inválido, o DataNode ainda poderá fornecer serviços para outros NameNodes no cluster.

DataNode

Um DataNode é um nó de trabalho no cluster de HDFS. Programados pelo cliente ou NameNode, os DataNodes armazenam e recuperam dados e periodicamente relatam blocos de arquivos para NameNodes.

Bloco de arquivo

Um bloco de arquivo é a unidade lógica mínima armazenada no HDFS. Cada arquivo de HDFS é armazenado em um ou mais blocos de arquivos. Todos os blocos de arquivos são armazenados em DataNodes.

Réplica de bloco

Uma réplica é uma cópia em bloco armazenada no HDFS. Um bloco de arquivos armazena várias réplicas para a disponibilidade do sistema e a tolerância a falhas.

Volume de namespace

Um volume de namespace é uma unidade de gerenciamento independente que consiste em um namespace e seu pool de blocos. Quando um NameNode é excluído, os pools de blocos relacionados no DataNode também são excluídos. Durante uma atualização de cluster, cada volume de namespace é atualizado como um todo.

NodeManager

O NodeManager executa aplicações, monitora o uso de recursos (incluindo CPUs, memória, discos e recursos de rede) de aplicações e relata o uso de recursos ao ResourceManager.

ResourceManager

O ResourceManager agenda os recursos exigidos pelas aplicações. Ele fornece um plug-in de agendamento para alocação de recursos de cluster para várias filas e aplicações. O plug-in de agendamento agenda recursos com base em recursos existentes ou usando o modelo de agendamento justo.

Partição

Cada tópico pode ser dividido em várias partições. Cada partição corresponde a um arquivo de log anexado cuja sequência é fixa.

Seguidor

Um seguidor processa solicitações de leitura e trabalha com um líder para processar solicitações de gravação. Ele também pode ser usado como um líder de backup. Quando o líder é defeituoso, um seguidor é eleito para assumir a carga de trabalho do líder para evitar um único ponto de falha.

Observador

Os observadores não participam na votação para a eleição e escrevem solicitações. Eles só processam solicitações de leitura e encaminham solicitações de gravação para o líder, melhorando a eficiência do processamento.

Líder

Um líder dos clusters de ZooKeeper é eleito pelos seguidores usando o protocolo Zookeeper Atomic Broadcast (ZAB). Ele recebe e agenda todas as solicitações de gravação e sincroniza informações escritas para seguidores e observadores.

CarbonData

Carbon é uma arquitetura aberta baseada em Spark SQL. Ele integra o mecanismo MOLAP desenvolvido pela Huawei e o Spark, e constrói rapidamente o mecanismo de análise multidimensional distribuído baseado em Spark, encurtando a duração da análise de minutos para segundos e fortalecendo a capacidade de análise multidimensional do Spark.

DStream

DStream é um conceito abstrato fornecido por Spark Streaming. É um fluxo de dados contínuo que é obtido a partir da fonte de dados ou do fluxo de entrada transformado. Em essência, um DStream é uma série de conjuntos de dados distribuídos resilientes contínuos (RDDs).

Memória heap

Um heap indica a área de dados onde a Máquina Virtual Java (JVM) está em execução e da qual a memória para todas as instâncias de classe e matrizes é confirmada. Os parâmetros de inicialização da JVM -Xms e -Xmx são usados para definir a memória heap inicial e a memória heap máxima, respectivamente.

  • Máxima memória heap: memória heap que pode ser comprometida com um programa no máximo pelo sistema, que é especificada pelo parâmetro -Xmx.
  • Memória heap comprometida: memória heap total comprometida pelo sistema para executar um programa. Ela varia entre a memória heap inicial e a memória heap máxima.
  • Memória heap usada: memória heap usada por um programa. É menor que a memória heap comprometida.
  • Memória não-heap: memória excluída dos heaps da JVM e da área de memória para executar a JVM. A memória não-heap tem os seguintes três pools de memória:
    • Code Cache: armazena código compilado JIT. Seu valor é definido por meio do parâmetro de inicialização da JVM -XX:InitialCodeCacheSize -XX:ReservedCodeCacheSize. O valor padrão é 240 MB.
    • Espaço de classe comprimido: armazena metadados de um ponteiro. Seu valor é definido por meio do parâmetro de inicialização da JVM -XX:CompressedClassSpaceSize. O valor padrão é 1024 MB.
    • Metaespaço: armazena metadados. Seu valor é definido através do parâmetro de inicialização da JVM -XX:MetaspaceSize -XX:MaxMetaspaceSize.
  • Máxima memória não heap: memória não heap comprometida com um programa no máximo pelo sistema. Seu valor é a soma dos valores máximos de Cache de código, Espaço de classe comprimido e Metaespaço.
  • Memória não-heap comprometida: memória não-heap total comprometida pelo sistema para executar um programa. Ela varia da memória não-heap inicial e a memória não-heap máxima.
  • Memória não-heap utilizada: memória não-heap utilizada por um programa. É menor do que a memória não heap comprometida.

Hadoop

O Hadoop é uma estrutura de sistema distribuído. Ele permite que os usuários desenvolvam aplicativos distribuídos usando computação e armazenamento de alta velocidade fornecidos por clusters sem conhecer os detalhes subjacentes do sistema distribuído. Ele também pode processar de forma confiável e eficiente grandes quantidades de dados em modo escalável e distribuído. O Hadoop é confiável porque mantém várias duplicatas de dados de trabalho, permitindo o processamento distribuído de nós com falha. O Hadoop é altamente eficiente porque processa dados em modo paralelo. O Hadoop é escalável porque pode processar petabytes de dados. O Hadoop é composto por HDFS, HBase, MapReduce e Hive.

Função

Uma função é um elemento de um serviço. Um serviço contém uma ou várias funções. Os serviços são instalados nos servidores por meio de funções para que possam ser executados corretamente.

Cluster

Um cluster é uma tecnologia de computador que permite que vários servidores funcionem como um servidor. Os clusters melhoram a estabilidade, a confiabilidade e a capacidade de processamento de dados ou serviço do sistema. Por exemplo, os clusters podem impedir ponto único de falhas (SPOFs), compartilhar recursos de armazenamento, reduzir a carga do sistema e melhorar o desempenho do sistema.

Instância

Uma instância é formada quando uma função de serviço é instalada no host. Um serviço tem uma ou mais instâncias de função.

Metadados

Metadados são dados que fornecem informações sobre outros dados e também são chamados de dados de mídia ou dados de retransmissão. Eles são usados para definir propriedades de dados, especificar locais de armazenamento de dados e dados históricos, recuperar recursos e registrar arquivos.