O que é um banco de dados/armazém de dados/data lake/lakehouse?
A Internet e a IoT em evolução produzem enormes volumes de dados. Esses dados precisam ser gerenciados, usando conceitos como banco de dados, armazém de dados, data lake e lakehouse. Quais são esses conceitos? Quais são as relações deles? Quais são os produtos e soluções específicos? Este documento ajuda você a compreendê-los por meio de comparação.
Banco de dados
Um banco de dados é onde os dados são organizados, armazenados e gerenciados pela estrutura de dados.
Bancos de dados têm sido usados em computadores desde a década de 1960, com os dois modelos de dados predominantes (hierárquico e de rede), e dados e aplicações eram muito interdependentes. Este limitou as aplicações de banco de dados.
Um banco de dados geralmente se refere a um banco de dados relacional. Um banco de dados relacional organiza dados com um modelo relacional, ou seja, os dados são armazenados em linhas e colunas. Portanto, os dados do banco de dados são bem estruturados e independentes, com baixa redundância. Em 1970, os bancos de dados relacionais nasceram para separar completamente os dados das aplicações de software e se tornaram uma parte indispensável dos sistemas de computadores convencionais. Bancos de dados relacionais são a base de produtos de banco de dados de todos os fornecedores, com suporte a API relacional, mesmo que um banco de dados não seja relacional.
Bancos de dados relacionais processam transações básicas e rotineiras usando OLTP, como transações bancárias.
Armazém de dados
O crescimento do banco de dados facilitou o crescimento dos dados. OLAP explora a relação entre dados e minera mais valor de dados. No entanto, é difícil compartilhar dados entre diferentes bancos de dados, e a integração e análise de dados também enfrentam grandes desafios.
Para superar esses desafios para as empresas, Bill Inmon, propôs a ideia de data warehousing em 1990. O armazém de dados é executado em uma arquitetura de armazenamento exclusiva para executar OLAP em uma grande quantidade de dados OLTP acumulados ao longo dos anos. Desta forma, as empresas podem obter informações valiosas a partir de dados massivos de forma rápida e eficaz para tomar decisões informadas. Graças aos armazéns de dados, a indústria da informação evoluiu de sistemas operacionais baseados em bancos de dados relacionais para sistemas de suporte à decisão.
Ao contrário de um banco de dados, um armazém de dados tem os seguintes recursos:
- Um armazém de dados usa temas. Ele é construído para suportar vários serviços, com dados provenientes de dados operacionais dispersos. Portanto, os dados necessários precisam ser extraídos de múltiplas fontes de dados heterogêneas, processados e integrados, e reorganizados por tema.
- Um armazém de dados oferece suporte principalmente à análise de decisões corporativas e as operações envolvidas são focadas na consulta de dados. Portanto, ele melhora a velocidade de consulta e reduz o custo total de propriedade (TCO) otimizando estruturas de tabela e modos de armazenamento.
Dimensão |
Armazém de dados |
Banco de dados |
---|---|---|
Cenário de aplicação |
OLAP |
OLTP |
Fonte de dados |
Múltiplas |
Única |
Normalização de dados |
Esquemas desnormalizados |
Esquemas estáticos altamente normalizados |
Acesso a dados |
Operações de leitura otimizadas |
Operações de gravação otimizadas |
Data lake
Os dados são um ativo importante para as empresas. Os dados de produção e operações são salvos e destilados em políticas de gerenciamento eficazes.
O data lake faz isso. É um grande armazém de dados que armazena centralmente dados estruturados e não estruturados. Ele pode armazenar dados brutos de várias fontes e tipos de dados, o que significa que os dados podem ser acessados, processados, analisados e transmitidos sem serem estruturados primeiro. O data lake ajuda as empresas a concluir rapidamente a análise federada de fontes de dados heterogêneas e explorar o valor dos dados.
- A arquitetura de armazenamento deve ser escalável e confiável o suficiente para armazenar dados massivos de qualquer tipo (dados estruturados, semi-estruturados, não estruturados).
- Os dois tipos de ferramentas de processamento têm funções separadas:
- O primeiro tipo: migra dados para o lago, incluindo definição de fontes, formulação de políticas de sincronização, movimentação de dados e compilação de catálogos.
- O segundo tipo então usa esses dados, incluindo análise, mineração e uso. O data lake deve estar equipado com recursos abrangentes, como gerenciamento abrangente de dados e ciclo de vida de dados, análise de dados diversificados e aquisição e liberação segura de dados. Essas ferramentas de governança de dados ajudam a garantir a qualidade dos dados, que pode ser comprometida pela falta de metadados e transformar o data lake em um pântano de dados.
Agora, com Big Data e IA, o data lake é ainda mais valioso e desempenha novos papéis. Representa mais capacidades empresariais. Por exemplo, o data lake pode centralizar o gerenciamento de dados, ajudando as empresas a criar modelos de operação mais otimizados. Ele também fornece outros recursos empresariais, como análise de previsão e modelos de recomendação. Esses modelos podem estimular um maior crescimento.
Assim como qualquer outro armazém e lago, um armazena bens, ou dados, de uma fonte, enquanto o outro armazena água, ou dados, de muitas fontes.
Dimensão |
Data lake |
Armazém de dados |
---|---|---|
Cenário de aplicação |
Análise exploratória (aprendizado de máquina, descoberta de dados, criação de perfis, previsão) |
Análise de dados (com base em dados estruturados históricos) |
Custo |
Baixo custo inicial, alto custo subsequente |
Alto custo inicial, baixo custo subsequente |
Qualidade dos dados |
Dados brutos maciços a serem limpos e normalizados antes do uso |
Dados de alta qualidade que podem ser usados como base de fatos |
Usuário-alvo |
Cientistas de dados e desenvolvedores de dados |
Analistas de negócios |
Lakehouse
Embora os cenários e arquiteturas de aplicações de um armazém de dados e um data lake sejam diferentes, eles podem cooperar para resolver problemas. Um armazém de dados armazena dados estruturados e é ideal para suporte rápido de BI e tomada de decisões, enquanto um data lake armazena dados em qualquer formato e pode gerar maior valor ao minerar dados. Portanto, sua convergência pode trazer mais benefícios para as empresas em alguns cenários.
Um lakehouse, a convergência de um armazém de dados e um data lake, visa permitir a mobilidade de dados e agilizar a construção. A chave da arquitetura do lakehouse é permitir o fluxo livre de dados/metadados entre o armazém de dados e o data lake. Os dados de valor explícito no lago podem fluir ou até mesmo ser usados diretamente pelo armazém. Os dados de valor implícito no armazém também podem fluir para o lago para armazenamento de longo prazo a baixo custo e para a mineração de dados futura.
Solução inteligente de dados
DataArts Studio é uma plataforma de capacitação de dados que ajuda grandes agências governamentais e empresas a personalizar soluções inteligentes de gerenciamento de recursos de dados. Essa solução pode importar dados de todos os domínios para o data lake, eliminando silos de dados, liberando o valor dos dados e capacitando a transformação digital orientada por dados.
DataArts Studio apresenta o data lake inteligente FusionInsight como seu núcleo. Em torno dele estão os mecanismos de computação, como o banco de dados, o armazém de dados, o data lake e a plataforma de dados. Ele fornece capacitação de dados abrangente, abrangendo coleta de dados, agregação, computação, gerenciamento de ativos e abertura de dados.
Os mecanismos de lago, armazém e banco de dados permitem a construção ágil de data lake, migração rápida de bancos de dados GaussDB e análise em tempo real do armazém de dados. Para mais informações, acesse:
- Banco de dados
- Os bancos de dados relacionais incluem: Relational Database Service (RDS) , GaussDB(for MySQL), GaussDB , RDS for PostgreSQL , RDS for SQL Server .
- Banco de dados não relacional: Document Database Service (DDS), GaussDB NoSQL (includindo Influx, Redis, Mongo, Cassandra)
- Armazém de dados: GaussDB(DWS)
- Integração com data lake e armazém de dados: MapReduce Service (MRS), Data Lake Insight (DLI) .
- Centro de governança de dados: DataArts Studio.