Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-01-05 GMT+08:00

O que é o GaussDB(DWS)?

O GaussDB(DWS) é um banco de dados de processamento de dados on-line que é executado na infra-estrutura da HUAWEI CLOUD para fornecer serviços de banco de dados analíticos escaláveis, totalmente gerenciados e prontos para uso, liberando você do gerenciamento e do monitoramento complexos de banco de dados. É um serviço de nuvem nativo baseado no armazém de dados convergente do GaussDB da Huawei, e é totalmente compatível com o padrão ANSI SQL 99 e SQL 2003, bem como com os ecossistemas PostgreSQL e Oracle. O GaussDB(DWS) fornece soluções competitivas para análise de Big data ao nível de PB em vários setores.

O DWS vem em três tipos: armazém de dados na nuvem, armazém de dados de fluxo e armazém de dados híbrido, ajudando você a criar um armazém de dados líder no setor em termos de kernels de nível corporativo, análise em tempo real, computação colaborativa, análise convergente e nuvem nativa. Para obter detalhes, consulte Tipos do armazém de dados.

O GaussDB(DWS) é amplamente utilizado em domínios como finanças, Internet de Veículos (IoV), governo e empresas, comércio eletrônico, energia e telecomunicações. Foi listado no Quadrante Mágico do Gartner para Soluções de Gerenciamento de Dados para análises por dois anos consecutivos. Ao contrário dos armazéns de dados convencionais, o GaussDB(DWS) é mais econômico e tem escalabilidade em larga escala e confiabilidade ao nível corporativo.

Arquitetura

O GaussDB(DWS) é baseado na arquitetura sem compartilhamento e o mecanismo de processamento massivo paralelo (MPP), e consiste em numerosos nós lógicos independentes que não compartilham os recursos do sistema, como CPUs, memória e armazenamento. Em tal arquitetura de sistema, os dados de serviço são armazenados separadamente em vários nós. As tarefas de análise de dados são executadas em paralelo nos nós onde os dados são armazenados. O processamento de dados massivamente paralelo melhora significativamente a velocidade de resposta.

Figura 1 Arquitetura
  • Camada de aplicação

    Ferramentas de carregamento de dados, ferramentas de extração, transformação e carregamento (ETL), ferramentas de business intelligence (BI), bem como ferramentas de mineração e análise de dados, podem ser integradas ao GaussDB(DWS) por meio de APIs padrão. O GaussDB(DWS) é compatível com o ecossistema PostgreSQL, e a sintaxe SQL é compatível com Oracle, MySQL e Teradata. As aplicações podem ser migradas sem problemas para o GaussDB(DWS) com poucas alterações.

  • API

    As aplicações podem se conectar ao GaussDB(DWS) através do padrão Java Database Connectivity (JDBC) 4.0 e Open Database Connectivity (ODBC) 3.5.

  • O GaussDB(DWS) (cluster MPP)

    Um cluster do GaussDB(DWS) contém nós do mesmo flavor na mesma sub-rede. Esses nós fornecem serviços em conjunto. Datanodes (DNs) em um cluster armazenam dados em discos. Coordenadores (CNs) recebem solicitações de acesso de aplicações e retornam os resultados da execução aos clientes. Além disso, um CN divide e distribui tarefas para os DNs para processamento paralelo.

  • Backup automático de dados

    Os snapshots de cluster podem ser automaticamente copiados para Object Storage Service (OBS) de nível EB, o que facilita o backup periódico do cluster durante o horário de pico, garantindo a recuperação de dados após a ocorrência de uma exceção de cluster.

    Um snapshot é um backup completo do GaussDB(DWS) em um ponto de tempo específico, incluindo os dados de configuração e dados de serviço de um cluster.

  • Cadeia de ferramentas

    A ferramenta de carregamento de dados paralelos General Data Service (GDS), a ferramenta de migração de sintaxe SQL Database Schema Convertor (DSC) e a ferramenta de desenvolvimento SQL Data Studio são fornecidas. O O&M do cluster pode ser monitorado em um console.

Arquitetura de cluster lógico

Figura 2 mostra a arquitetura lógica de um cluster do GaussDB(DWS). Para obter detalhes sobre instâncias, consulte Tabela 1.

Figura 2 Arquitetura de cluster lógico
Tabela 1 Descrição da arquitetura de cluster

Nome

Descrição

Observações

Gestor de transações globais (GTM)

Gera e mantém as informações exclusivas globalmente, como a ID da transação, o snapshot da transação e o carimbo de data/hora.

O cluster inclui apenas um par de GTMs: um GTM primário e um GTM em espera.

Gerenciador de carga de trabalho (WLM)

Gerenciador de carga de trabalho. Ele controla a alocação de recursos do sistema para evitar o congestionamento do serviço e a falha do sistema resultantes da carga de trabalho excessiva.

Não é necessário especificar nomes de hosts em que WLMs serão implementados, pois o programa de instalação instala automaticamente um WLM em cada host.

Coordenador (CN)

Um CN recebe solicitações de acesso de aplicativos e retorna resultados de execução para o cliente; divide tarefas e aloca fragmentos de tarefas a diferentes DNs para processamento paralelo.

CNs em um cluster têm funções equivalentes e retornam o mesmo resultado para a mesma instrução DML. Balanceadores de carga podem ser adicionados entre CNs e aplicativos para garantir que CNs sejam transparentes para os aplicativos. Se um CN estiver com defeito, o balanceador de carga conectará suas aplicações a outro CN.

CNs precisam se conectar mutuamente na arquitetura de transação distribuída. Para reduzir a carga pesada causada por threads excessivos em GTMs, não mais de 10 CN devem ser configurados em um cluster.

O GaussDB(DWS) manipula a carga de recursos global em um cluster usando o Coordenador Central (CCN) para gerenciamento de carga dinâmica adaptativa. Quando o conjunto é iniciado pela primeira vez, o CM seleciona o CN com o menor ID como o CCN. Se o CCN estiver defeituoso, o CM o substituirá por um novo.

Datanode (DN)

Um DN armazena dados de serviço por coluna ou linha, ou no modo híbrido, executa tarefas de consulta de dados e retorna resultados de execução para CNs.

Um cluster consiste em vários DNs e cada DN armazena parte dos dados. Um cluster é geralmente implementado no modo de HA secundária primária/em espera. Se um DN estiver defeituoso e os dados na instância não puderem ser acessados, você poderá executar operações de HA de cluster. Para obter detalhes, consulte HA do cluster.

Armazenamento

Funciona como os recursos de armazenamento local do servidor para armazenar dados permanentemente.

-

DNs em um cluster armazenam dados em discos. Figura 3 descreve os objetos em cada DN e os relacionamentos entre eles logicamente.

  • Um banco de dados gerencia vários objetos de dados e é isolado de outros bancos de dados.
  • Um segmento de arquivo de dados armazena dados em apenas uma tabela. Uma tabela contendo mais de 1 GB de dados é armazenada em vários segmentos de arquivos de dados.
  • Uma tabela pertence apenas a um banco de dados.
  • Um bloco é a unidade básica de gerenciamento de banco de dados, com um tamanho padrão de 8 KB.

Os dados podem ser distribuídos no modo de replicação, round-robin ou hash. Você pode especificar o modo de distribuição durante a criação da tabela.

Figura 3 Arquitetura de banco de dados lógico