Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ MapReduce Service/ Visão geral de serviço/ Componentes/ Impala

Atualizado em 2023-05-19 GMT+08:00

Ver PDF

Impala

O Impala fornece consultas SQL rápidas e interativas diretamente nos dados do Apache Hadoop armazenados no HDFS, HBase ou no Object Storage Service (OBS). Além de usar a mesma plataforma de armazenamento unificada, o Impala também usa os mesmos metadados, sintaxe SQL (Hive SQL), driver ODBC e interface de usuário (UI de consulta de Impala no Hue) como Apache Hive. Isso fornece uma plataforma familiar e unificada para consultas em tempo real ou orientadas a lotes. Impala é uma adição às ferramentas disponíveis para consultar Big Data. O Impala não substitui as estruturas de processamento em lote construídas em MapReduce como o Hive. Hive e outras estruturas construídas no MapReduce são mais adequados para jobs em lote de longa duração.

O Impala oferece os seguintes recursos:

Recursos de SQL-92 mais comuns do Hive Query Language (HiveQL), incluindo SELECT, JOIN e funções agregadas
Armazenamento HDFS, HBase e OBS, incluindo:
- Formatos de arquivo HDFS: arquivos de texto delimitados, Parquet, Avro SequenceFile e RCFile
- Codecs de compressão: Snappy, GZIP, Deflate, BZIP
Interfaces comuns de acesso a dados, incluindo:
- Driver JDBC
- Driver ODBC
- Hue Beeswax e a interface de consulta de Impala
Interface de linha de comando impala-shell
Autenticação de Kerberos

Impala aplica-se a análise off-line (como log e análise de status de cluster) de consultas de dados em tempo real, mineração de dados em larga escala (como análise do comportamento do usuário, análise da região de interesse e exibição da região) e outros cenários.

Para mais informações sobre o Impala, visite https://impala.apache.org/impala-docs.html.

Impala consiste em três papéis: Impala Daemon (Impalad), Impala StateStore e Serviço de catálogo do Impala.

Impala Daemon

O componente principal do Impala é o Impala daemon, fisicamente representado pelo processo impalad.

Algumas das principais funções que um Impala daemon executa são:

Executa em todos os nós de dados.
Lê e grava em arquivos de dados.
Aceita consultas transmitidas do comando impala-shell, Hue, JDBC ou ODBC.
Paralela às consultas e transmite os resultados da consulta intermediária de volta ao coordenador central.
Invoca um nó para retornar os resultados da consulta ao cliente.

Os Impala daemons estão em constante comunicação com o StateStore para confirmar quais daemons estão íntegros e podem aceitar novos trabalhos.

Impala StateStore

O componente do Impala conhecido como StateStore verifica a integridade de todos os Impala daemons em um cluster e continuamente retransmite suas descobertas para cada um desses daemons. Ele é fisicamente representado por um processo de daemon chamado statestored. Você só precisa de tal processo em um host em um cluster. Se um Impala daemon ficar off-line devido à falha de hardware, erro de rede, problema de software ou outro motivo, o StateStore informa todos os outros Impala daemons para que futuras consultas possam evitar solicitações ao Impala daemon inacessível.

Serviço de catálogo do Impala

O componente do Impala conhecido como Serviço de catálogo retransmite as alterações de metadados das instruções SQL do Impala para todos os Impala daemons em um cluster. É fisicamente representado por um processo de daemon chamado catalogd. Quando você cria uma tabela, carrega dados, e assim por diante através do Hive, você precisa emitir REFRESH ou INVALIDATE METADATA em um Impala daemon antes de executar uma consulta lá. O serviço de catálogo evita a necessidade de emitir declarações REFRESH e INVALIDATE METADATA quando as alterações de metadados são realizadas por instruções emitidas através do Impala.

Tópico principal: Componentes

Tópico anterior: Recursos de código aberto aprimorados do Hue

Próximo tópico: IoTDB