Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Central de ajuda/ GaussDB(DWS)/ Perguntas frequentes/ Problemas gerais/ O que é um banco de dados/armazém de dados/data lake/lakehouse?
Atualizado em 2024-05-09 GMT+08:00

O que é um banco de dados/armazém de dados/data lake/lakehouse?

A Internet e a IoT em evolução produzem enormes volumes de dados. Esses dados precisam ser gerenciados, usando conceitos como banco de dados, armazém de dados, data lake e lakehouse. Quais são esses conceitos? Quais são as relações deles? Quais são os produtos e soluções específicos? Este documento ajuda você a compreendê-los por meio de comparação.

Banco de dados

Um banco de dados é onde os dados são organizados, armazenados e gerenciados pela estrutura de dados.

Bancos de dados têm sido usados em computadores desde a década de 1960, com os dois modelos de dados predominantes (hierárquico e de rede), e dados e aplicações eram muito interdependentes. Este limitou as aplicações de banco de dados.

Um banco de dados geralmente se refere a um banco de dados relacional. Um banco de dados relacional organiza dados com um modelo relacional, ou seja, os dados são armazenados em linhas e colunas. Portanto, os dados do banco de dados são bem estruturados e independentes, com baixa redundância. Em 1970, os bancos de dados relacionais nasceram para separar completamente os dados das aplicações de software e se tornaram uma parte indispensável dos sistemas de computadores convencionais. Bancos de dados relacionais são a base de produtos de banco de dados de todos os fornecedores, com suporte a API relacional, mesmo que um banco de dados não seja relacional.

Bancos de dados relacionais processam transações básicas e rotineiras usando OLTP, como transações bancárias.

Armazém de dados

O crescimento do banco de dados facilitou o crescimento dos dados. OLAP explora a relação entre dados e minera mais valor de dados. No entanto, é difícil compartilhar dados entre diferentes bancos de dados, e a integração e análise de dados também enfrentam grandes desafios.

Para superar esses desafios para as empresas, Bill Inmon, propôs a ideia de data warehousing em 1990. O armazém de dados é executado em uma arquitetura de armazenamento exclusiva para executar OLAP em uma grande quantidade de dados OLTP acumulados ao longo dos anos. Desta forma, as empresas podem obter informações valiosas a partir de dados massivos de forma rápida e eficaz para tomar decisões informadas. Graças aos armazéns de dados, a indústria da informação evoluiu de sistemas operacionais baseados em bancos de dados relacionais para sistemas de suporte à decisão.

Ao contrário de um banco de dados, um armazém de dados tem os seguintes recursos:

  • Um armazém de dados usa temas. Ele é construído para suportar vários serviços, com dados provenientes de dados operacionais dispersos. Portanto, os dados necessários precisam ser extraídos de múltiplas fontes de dados heterogêneas, processados e integrados, e reorganizados por tema.
  • Um armazém de dados oferece suporte principalmente à análise de decisões corporativas e as operações envolvidas são focadas na consulta de dados. Portanto, ele melhora a velocidade de consulta e reduz o custo total de propriedade (TCO) otimizando estruturas de tabela e modos de armazenamento.
Tabela 1 Comparação entre armazéns de dados e bancos de dados

Dimensão

Armazém de dados

Banco de dados

Cenário de aplicação

OLAP

OLTP

Fonte de dados

Múltiplas

Única

Normalização de dados

Esquemas desnormalizados

Esquemas estáticos altamente normalizados

Acesso a dados

Operações de leitura otimizadas

Operações de gravação otimizadas

Data lake

Os dados são um ativo importante para as empresas. Os dados de produção e operações são salvos e destilados em políticas de gerenciamento eficazes.

O data lake faz isso. É um grande armazém de dados que armazena centralmente dados estruturados e não estruturados. Ele pode armazenar dados brutos de várias fontes e tipos de dados, o que significa que os dados podem ser acessados, processados, analisados e transmitidos sem serem estruturados primeiro. O data lake ajuda as empresas a concluir rapidamente a análise federada de fontes de dados heterogêneas e explorar o valor dos dados.

Um data lake é, em essência, uma solução que consiste em uma arquitetura de armazenamento de dados e ferramentas de processamento de dados.
  • A arquitetura de armazenamento deve ser escalável e confiável o suficiente para armazenar dados massivos de qualquer tipo (dados estruturados, semi-estruturados, não estruturados).
  • Os dois tipos de ferramentas de processamento têm funções separadas:
    • O primeiro tipo: migra dados para o lago, incluindo definição de fontes, formulação de políticas de sincronização, movimentação de dados e compilação de catálogos.
    • O segundo tipo então usa esses dados, incluindo análise, mineração e uso. O data lake deve estar equipado com recursos abrangentes, como gerenciamento abrangente de dados e ciclo de vida de dados, análise de dados diversificados e aquisição e liberação segura de dados. Essas ferramentas de governança de dados ajudam a garantir a qualidade dos dados, que pode ser comprometida pela falta de metadados e transformar o data lake em um pântano de dados.

Agora, com Big Data e IA, o data lake é ainda mais valioso e desempenha novos papéis. Representa mais capacidades empresariais. Por exemplo, o data lake pode centralizar o gerenciamento de dados, ajudando as empresas a criar modelos de operação mais otimizados. Ele também fornece outros recursos empresariais, como análise de previsão e modelos de recomendação. Esses modelos podem estimular um maior crescimento.

Assim como qualquer outro armazém e lago, um armazena bens, ou dados, de uma fonte, enquanto o outro armazena água, ou dados, de muitas fontes.

Tabela 2 Comparação entre data lakes e armazém de dados

Dimensão

Data lake

Armazém de dados

Cenário de aplicação

Análise exploratória (aprendizado de máquina, descoberta de dados, criação de perfis, previsão)

Análise de dados (com base em dados estruturados históricos)

Custo

Baixo custo inicial, alto custo subsequente

Alto custo inicial, baixo custo subsequente

Qualidade dos dados

Dados brutos maciços a serem limpos e normalizados antes do uso

Dados de alta qualidade que podem ser usados como base de fatos

Usuário-alvo

Cientistas de dados e desenvolvedores de dados

Analistas de negócios

Lakehouse

Embora os cenários e arquiteturas de aplicações de um armazém de dados e um data lake sejam diferentes, eles podem cooperar para resolver problemas. Um armazém de dados armazena dados estruturados e é ideal para suporte rápido de BI e tomada de decisões, enquanto um data lake armazena dados em qualquer formato e pode gerar maior valor ao minerar dados. Portanto, sua convergência pode trazer mais benefícios para as empresas em alguns cenários.

Um lakehouse, a convergência de um armazém de dados e um data lake, visa permitir a mobilidade de dados e agilizar a construção. A chave da arquitetura do lakehouse é permitir o fluxo livre de dados/metadados entre o armazém de dados e o data lake. Os dados de valor explícito no lago podem fluir ou até mesmo ser usados diretamente pelo armazém. Os dados de valor implícito no armazém também podem fluir para o lago para armazenamento de longo prazo a baixo custo e para a mineração de dados futura.

Solução inteligente de dados

DataArts Studio é uma plataforma de capacitação de dados que ajuda grandes agências governamentais e empresas a personalizar soluções inteligentes de gerenciamento de recursos de dados. Essa solução pode importar dados de todos os domínios para o data lake, eliminando silos de dados, liberando o valor dos dados e capacitando a transformação digital orientada por dados.

DataArts Studio apresenta o data lake inteligente FusionInsight como seu núcleo. Em torno dele estão os mecanismos de computação, como o banco de dados, o armazém de dados, o data lake e a plataforma de dados. Ele fornece capacitação de dados abrangente, abrangendo coleta de dados, agregação, computação, gerenciamento de ativos e abertura de dados.

Os mecanismos de lago, armazém e banco de dados permitem a construção ágil de data lake, migração rápida de bancos de dados GaussDB e análise em tempo real do armazém de dados. Para mais informações, acesse: