Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Computação
Elastic Cloud Server
Bare Metal Server
Auto Scaling
Image Management Service
Dedicated Host
FunctionGraph
Cloud Phone Host
Huawei Cloud EulerOS
Redes
Virtual Private Cloud
Elastic IP
Elastic Load Balance
NAT Gateway
Direct Connect
Virtual Private Network
VPC Endpoint
Cloud Connect
Enterprise Router
Enterprise Switch
Global Accelerator
Gerenciamento e governança
Cloud Eye
Identity and Access Management
Cloud Trace Service
Resource Formation Service
Tag Management Service
Log Tank Service
Config
Resource Access Manager
Simple Message Notification
Application Performance Management
Application Operations Management
Organizations
Optimization Advisor
Cloud Operations Center
Resource Governance Center
Migração
Server Migration Service
Object Storage Migration Service
Cloud Data Migration
Migration Center
Cloud Ecosystem
KooGallery
Partner Center
User Support
My Account
Billing Center
Cost Center
Resource Center
Enterprise Management
Service Tickets
HUAWEI CLOUD (International) FAQs
ICP Filing
Support Plans
My Credentials
Customer Operation Capabilities
Partner Support Plans
Professional Services
Análises
MapReduce Service
Data Lake Insight
CloudTable Service
Cloud Search Service
Data Lake Visualization
Data Ingestion Service
GaussDB(DWS)
DataArts Studio
IoT
IoT Device Access
Outros
Product Pricing Details
System Permissions
Console Quick Start
Common FAQs
Instructions for Associating with a HUAWEI CLOUD Partner
Message Center
Segurança e conformidade
Security Technologies and Applications
Web Application Firewall
Host Security Service
Cloud Firewall
SecMaster
Anti-DDoS Service
Data Encryption Workshop
Database Security Service
Cloud Bastion Host
Data Security Center
Cloud Certificate Manager
Situation Awareness
Managed Threat Detection
Blockchain
Blockchain Service
Serviços de mídia
Media Processing Center
Video On Demand
Live
SparkRTC
Armazenamento
Object Storage Service
Elastic Volume Service
Cloud Backup and Recovery
Cloud Server Backup Service
Storage Disaster Recovery Service
Scalable File Service
Volume Backup Service
Data Express Service
Dedicated Distributed Storage Service
Containers
Cloud Container Engine
SoftWare Repository for Container
Application Service Mesh
Ubiquitous Cloud Native Service
Cloud Container Instance
Bancos de dados
Relational Database Service
Document Database Service
Data Admin Service
Data Replication Service
GeminiDB
GaussDB
Distributed Database Middleware
Database and Application Migration UGO
TaurusDB
Middleware
Distributed Cache Service
API Gateway
Distributed Message Service for Kafka
Distributed Message Service for RabbitMQ
Distributed Message Service for RocketMQ
Cloud Service Engine
EventGrid
Dedicated Cloud
Dedicated Computing Cluster
Aplicações de negócios
ROMA Connect
Message & SMS
Domain Name Service
Edge Data Center Management
Meeting
AI
Face Recognition Service
Graph Engine Service
Content Moderation
Image Recognition
Data Lake Factory
Optical Character Recognition
ModelArts
ImageSearch
Conversational Bot Service
Speech Interaction Service
Huawei HiLens
Developer Tools
SDK Developer Guide
API Request Signing Guide
Terraform
Koo Command Line Interface
Distribuição de conteúdo e computação de borda
Content Delivery Network
Intelligent EdgeFabric
CloudPond
Soluções
SAP Cloud
High Performance Computing
Serviços para desenvolvedore
ServiceStage
CodeArts
CodeArts PerfTest
CodeArts Req
CodeArts Pipeline
CodeArts Build
CodeArts Deploy
CodeArts Artifact
CodeArts TestPlan
CodeArts Check
Cloud Application Engine
MacroVerse aPaaS
KooPhone
KooDrive
Central de ajuda/ GaussDB(DWS)/ Perguntas frequentes/ Problemas gerais/ O que é um banco de dados/armazém de dados/data lake/lakehouse?

O que é um banco de dados/armazém de dados/data lake/lakehouse?

Atualizado em 2025-01-23 GMT+08:00

A Internet e a IoT em evolução produzem enormes volumes de dados. Esses dados precisam ser gerenciados, usando conceitos como banco de dados, armazém de dados, data lake e lakehouse. Quais são esses conceitos? Quais são as relações deles? Quais são os produtos e soluções específicos? Este documento ajuda você a compreendê-los por meio de comparação.

Banco de dados

Um banco de dados é onde os dados são organizados, armazenados e gerenciados pela estrutura de dados.

Bancos de dados têm sido usados em computadores desde a década de 1960, com os dois modelos de dados predominantes (hierárquico e de rede), e dados e aplicações eram muito interdependentes. Este limitou as aplicações de banco de dados.

Um banco de dados geralmente se refere a um banco de dados relacional. Um banco de dados relacional organiza dados com um modelo relacional, ou seja, os dados são armazenados em linhas e colunas. Portanto, os dados do banco de dados são bem estruturados e independentes, com baixa redundância. Em 1970, os bancos de dados relacionais nasceram para separar completamente os dados das aplicações de software e se tornaram uma parte indispensável dos sistemas de computadores convencionais. Bancos de dados relacionais são a base de produtos de banco de dados de todos os fornecedores, com suporte a API relacional, mesmo que um banco de dados não seja relacional.

Bancos de dados relacionais processam transações básicas e rotineiras usando OLTP, como transações bancárias.

Armazém de dados

O crescimento do banco de dados facilitou o crescimento dos dados. OLAP explora a relação entre dados e minera mais valor de dados. No entanto, é difícil compartilhar dados entre diferentes bancos de dados, e a integração e análise de dados também enfrentam grandes desafios.

Para superar esses desafios para as empresas, Bill Inmon, propôs a ideia de data warehousing em 1990. O armazém de dados é executado em uma arquitetura de armazenamento exclusiva para executar OLAP em uma grande quantidade de dados OLTP acumulados ao longo dos anos. Desta forma, as empresas podem obter informações valiosas a partir de dados massivos de forma rápida e eficaz para tomar decisões informadas. Graças aos armazéns de dados, a indústria da informação evoluiu de sistemas operacionais baseados em bancos de dados relacionais para sistemas de suporte à decisão.

Ao contrário de um banco de dados, um armazém de dados tem os seguintes recursos:

  • Um armazém de dados usa temas. Ele é construído para suportar vários serviços, com dados provenientes de dados operacionais dispersos. Portanto, os dados necessários precisam ser extraídos de múltiplas fontes de dados heterogêneas, processados e integrados, e reorganizados por tema.
  • Um armazém de dados oferece suporte principalmente à análise de decisões corporativas e as operações envolvidas são focadas na consulta de dados. Portanto, ele melhora a velocidade de consulta e reduz o custo total de propriedade (TCO) otimizando estruturas de tabela e modos de armazenamento.
Tabela 1 Comparação entre armazéns de dados e bancos de dados

Dimensão

Armazém de dados

Banco de dados

Cenário de aplicação

OLAP

OLTP

Fonte de dados

Múltiplas

Única

Normalização de dados

Esquemas desnormalizados

Esquemas estáticos altamente normalizados

Acesso a dados

Operações de leitura otimizadas

Operações de gravação otimizadas

Data lake

Os dados são um ativo importante para as empresas. Os dados de produção e operações são salvos e destilados em políticas de gerenciamento eficazes.

O data lake faz isso. É um grande armazém de dados que armazena centralmente dados estruturados e não estruturados. Ele pode armazenar dados brutos de várias fontes e tipos de dados, o que significa que os dados podem ser acessados, processados, analisados e transmitidos sem serem estruturados primeiro. O data lake ajuda as empresas a concluir rapidamente a análise federada de fontes de dados heterogêneas e explorar o valor dos dados.

Um data lake é, em essência, uma solução que consiste em uma arquitetura de armazenamento de dados e ferramentas de processamento de dados.
  • A arquitetura de armazenamento deve ser escalável e confiável o suficiente para armazenar dados massivos de qualquer tipo (dados estruturados, semi-estruturados, não estruturados).
  • Os dois tipos de ferramentas de processamento têm funções separadas:
    • O primeiro tipo: migra dados para o lago, incluindo definição de fontes, formulação de políticas de sincronização, movimentação de dados e compilação de catálogos.
    • O segundo tipo então usa esses dados, incluindo análise, mineração e uso. O data lake deve estar equipado com recursos abrangentes, como gerenciamento abrangente de dados e ciclo de vida de dados, análise de dados diversificados e aquisição e liberação segura de dados. Essas ferramentas de governança de dados ajudam a garantir a qualidade dos dados, que pode ser comprometida pela falta de metadados e transformar o data lake em um pântano de dados.

Agora, com Big Data e IA, o data lake é ainda mais valioso e desempenha novos papéis. Representa mais capacidades empresariais. Por exemplo, o data lake pode centralizar o gerenciamento de dados, ajudando as empresas a criar modelos de operação mais otimizados. Ele também fornece outros recursos empresariais, como análise de previsão e modelos de recomendação. Esses modelos podem estimular um maior crescimento.

Assim como qualquer outro armazém e lago, um armazena bens, ou dados, de uma fonte, enquanto o outro armazena água, ou dados, de muitas fontes.

Tabela 2 Comparação entre data lakes e armazém de dados

Dimensão

Data lake

Armazém de dados

Cenário de aplicação

Análise exploratória (aprendizado de máquina, descoberta de dados, criação de perfis, previsão)

Análise de dados (com base em dados estruturados históricos)

Custo

Baixo custo inicial, alto custo subsequente

Alto custo inicial, baixo custo subsequente

Qualidade dos dados

Dados brutos maciços a serem limpos e normalizados antes do uso

Dados de alta qualidade que podem ser usados como base de fatos

Usuário-alvo

Cientistas de dados e desenvolvedores de dados

Analistas de negócios

Lakehouse

Embora os cenários e arquiteturas de aplicações de um armazém de dados e um data lake sejam diferentes, eles podem cooperar para resolver problemas. Um armazém de dados armazena dados estruturados e é ideal para suporte rápido de BI e tomada de decisões, enquanto um data lake armazena dados em qualquer formato e pode gerar maior valor ao minerar dados. Portanto, sua convergência pode trazer mais benefícios para as empresas em alguns cenários.

Um lakehouse, a convergência de um armazém de dados e um data lake, visa permitir a mobilidade de dados e agilizar a construção. A chave da arquitetura do lakehouse é permitir o fluxo livre de dados/metadados entre o armazém de dados e o data lake. Os dados de valor explícito no lago podem fluir ou até mesmo ser usados diretamente pelo armazém. Os dados de valor implícito no armazém também podem fluir para o lago para armazenamento de longo prazo a baixo custo e para a mineração de dados futura.

Solução inteligente de dados

DataArts Studio é uma plataforma de capacitação de dados que ajuda grandes agências governamentais e empresas a personalizar soluções inteligentes de gerenciamento de recursos de dados. Essa solução pode importar dados de todos os domínios para o data lake, eliminando silos de dados, liberando o valor dos dados e capacitando a transformação digital orientada por dados.

DataArts Studio apresenta o data lake inteligente FusionInsight como seu núcleo. Em torno dele estão os mecanismos de computação, como o banco de dados, o armazém de dados, o data lake e a plataforma de dados. Ele fornece capacitação de dados abrangente, abrangendo coleta de dados, agregação, computação, gerenciamento de ativos e abertura de dados.

Os mecanismos de lago, armazém e banco de dados permitem a construção ágil de data lake, migração rápida de bancos de dados GaussDB e análise em tempo real do armazém de dados. Para mais informações, acesse:

Usamos cookies para aprimorar nosso site e sua experiência. Ao continuar a navegar em nosso site, você aceita nossa política de cookies. Saiba mais

Feedback

Feedback

Feedback

0/500

Conteúdo selecionado

Envie o conteúdo selecionado com o feedback