Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda/ GaussDB(DWS)/ Preguntas frecuentes/ Problemas generales/ ¿Qué es una base de datos/almacén de datos/lago de datos/lakehouse?
Actualización más reciente 2023-10-12 GMT+08:00

¿Qué es una base de datos/almacén de datos/lago de datos/lakehouse?

La evolución de Internet y el IoT producen volúmenes masivos de datos. Estos datos necesitan ser gestionados, usando conceptos como base de datos, almacén de datos, lago de datos y lakehouse. ¿Cuáles son estos conceptos? ¿Cuáles son sus relaciones? ¿Cuáles son los productos y soluciones específicos? Este documento le ayuda a entenderlos con la comparación.

Base de datos

Una base de datos es donde los datos están organizados, almacenados y gestionados por la estructura de datos.

Las bases de datos se han utilizado en computadoras desde la década de 1960s, con los dos modelos de datos predominantes (jerárquico y de red), y los datos y aplicaciones eran muy interdependientes. Esto limita las aplicaciones de bases de datos.

Una base de datos generalmente se refiere a una base de datos relacional. Una base de datos relacional organiza los datos con un modelo relacional, es decir, los datos se almacenan en filas y columnas. Por lo tanto, los datos de la base de datos están bien estructurados e independientes con baja redundancia. En 1970, las bases de datos relacionales nacieron para separar completamente los datos de las aplicaciones de software y se han convertido en una parte indispensable de los sistemas informáticos convencionales. Las bases de datos relacionales son la base de los productos de base de datos de todos los proveedores, con soporte de API relacional incluso si una base de datos no es relacional.

Las bases de datos relacionales procesan transacciones básicas y rutinarias usando OLTP, como las transacciones bancarias.

Almacén de datos

El crecimiento de las bases de datos ha facilitado el crecimiento de los datos. OLAP explora la relación entre los datos y extrae más valor de datos. Sin embargo, es difícil compartir datos entre diferentes bases de datos, y la integración y el análisis de datos también enfrentan grandes desafíos.

Para superar estos desafíos para las empresas, Bill Inmon, propuso la idea de almacenamiento de datos en 1990. El almacén de datos se ejecuta en una arquitectura de almacenamiento única para realizar OLAP en una gran cantidad de datos OLTP acumulados a lo largo de los años. De esta manera, las empresas pueden obtener información valiosa de datos masivos de forma rápida y eficaz para tomar decisiones informadas. Gracias a los almacenes de datos, la industria de la información ha evolucionado de sistemas operativos basados en bases de datos relacionales a sistemas de apoyo a la toma de decisiones.

A diferencia de una base de datos, un almacén de datos tiene las siguientes características:

  • Un almacén de datos utiliza temas. Está diseñado para soportar varios servicios, con datos procedentes de datos operativos dispersos. Por lo tanto, los datos requeridos deben extraerse de múltiples fuentes de datos heterogéneas, procesarse e integrarse, y reorganizarse por tema.
  • Un almacén de datos soporta principalmente el análisis de decisiones empresariales y las operaciones involucradas se centran en la consulta de datos. Por lo tanto, mejora la velocidad de consulta y reduce el costo total de propiedad (TCO) al optimizar las estructuras de tablas y los modos de almacenamiento.
Tabla 1 Comparación entre almacenes de datos y bases de datos

Dimensión

Almacén de datos

Base de datos

Escenario de aplicación

OLAP

OLTP

Fuente de datos

Múltiple

Único

Normalización de datos

Esquemas denormalizados

Esquemas estáticos altamente normalizados

Acceso a los datos

Operaciones de lectura optimizadas

Operaciones de escritura optimizadas

Lago de datos

Los datos son un activo importante para las empresas. Los datos de producción y operaciones se guardan y se destilan en políticas de gestión efectivas.

El lago de datos hace eso. Es un gran almacén de datos que almacena de forma centralizada datos estructurados y no estructurados. Puede almacenar datos sin procesar de múltiples fuentes y tipos de datos, lo que significa que se puede acceder a los datos, procesarlos, analizarlos y transmitirlos sin ser estructurados primero. El lago de datos ayuda a las empresas a completar rápidamente el análisis federado de fuentes de datos heterogéneas y a explorar el valor de los datos.

Un lago de datos es en esencia una solución que consiste en una arquitectura de almacenamiento de datos y herramientas de procesamiento de datos.
  • La arquitectura de almacenamiento debe ser escalable y lo suficientemente confiable como para almacenar datos masivos de cualquier tipo (datos estructurados, semiestructurados, no estructurados).
  • Los dos tipos de processing tools tienen funciones separadas:
    • El primer tipo: migra datos al lago, incluida la definición de orígenes, la formulación de políticas de sincronización, el movimiento de datos y la compilación de catálogos.
    • El segundo tipo entonces utiliza esos datos, incluidos el análisis, la minería, y el uso de ellos. El lago de datos debe estar equipado con capacidades de amplio alcance, como la gestión integral del ciclo de vida de los datos y datos, el análisis de datos diversificado y la adquisición y liberación seguras de datos. Estas herramientas de gobernanza de datos ayudan a garantizar la calidad de los datos, que puede verse comprometida por la falta de metadatos y convertir el lago de datos en un pantano de datos.

Ahora, con el big data y la IA, los datos en el lago son aún más valiosos y juegan nuevos roles. Representa más capacidades empresariales. Por ejemplo, el lago de datos puede centralizar la gestión de datos, ayudando a las empresas a construir modelos de operación más optimizados. También proporciona otras capacidades empresariales, como análisis de predicción y modelos de recomendación. Estos modelos pueden estimular un mayor crecimiento.

Al igual que cualquier otro almacén y lago, uno almacena bienes, o datos, de una fuente, mientras que el otro almacena agua, o datos, de muchas fuentes.

Tabla 2 Comparación entre lagos de datos y almacenes de datos

Dimensión

Lago de datos

Almacén de datos

Escenario de aplicación

Análisis exploratorio (aprendizaje automático, descubrimiento de datos, perfilado, predicción)

Análisis de datos (basado en datos estructurados históricos)

Costo

Bajo costo inicial, alto costo posterior

Alto costo inicial, bajo costo posterior

Calidad de los datos

Datos brutos masivos que deben limpiarse y normalizarse antes de su uso

Datos de alta calidad que pueden utilizarse como base de los hechos

Usuario objetivo

Científicos de datos y desarrolladores de datos

Analista comercial

Lakehouse

Aunque los escenarios de aplicación y las arquitecturas de un almacén de datos y un lago de datos son diferentes, pueden cooperar para resolver problemas. Un almacén de datos almacena datos estructurados y es ideal para un soporte rápido de BI y toma de decisiones, mientras que un lago de datos almacena datos en cualquier formato y puede generar mayor valor mediante la minería de datos. Por lo tanto, su convergencia puede traer más beneficios a las empresas en algunos escenarios.

Un lakehouse, la convergencia de un almacén de datos y un lago de datos, tiene como objetivo permitir la movilidad de datos y agilizar la construcción. La clave de la arquitectura del lakehouse es permitir el libre flujo de datos/metadatos entre el almacén de datos y el lago de datos. Los datos de valor explícito en el lago pueden fluir o incluso ser utilizados directamente por el almacén. Los datos de valor implícito en el almacén también pueden fluir al lago para el almacenamiento a largo plazo a un bajo costo y para la minería de datos futura.

Solución de datos inteligentes

DataArts es una plataforma de habilitación de datos que ayuda a grandes agencias gubernamentales y empresas a personalizar soluciones inteligentes de gestión de recursos de datos. Esta solución puede importar datos de todos los dominios en el lago de datos, eliminando los silos de datos, liberando el valor de los datos y potenciando la transformación digital basada en datos.

DataArts Studio cuenta con el lago de datos inteligente FusionInsight como su núcleo. A su alrededor hay motores informáticos como la base de datos, el almacén de datos, el lago de datos y la plataforma de datos. Proporciona habilitación integral de datos, que abarca la recopilación de datos, agregación, cómputo, gestión de activos y apertura de datos.

Los motores de lagos, almacenes y bases de datos permiten la construcción ágil de lagos de datos, la migración rápida de bases de datos de GaussDB y el análisis en tiempo real del almacén de datos. Para obtener más información, visite: