数据库、数据仓库、数据湖、湖仓一体分别是什么?
如今随着互联网以及物联网等技术的不断发展,越来越多的数据被生产出来,数据管理工具也得到了飞速的发展,大数据相关概念如雨后春笋一般应运而生,如数据库、数据仓库、数据湖、湖仓一体等。这些概念分别指的是什么,又有着怎样的联系,同时,对应的产品与方案又是什么呢?本文将一一进行对比介绍。
什么是数据库?
数据库是“按照数据结构来组织、存储和管理数据的仓库”。
广义上的数据库,在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的,且数据和程序之间具备非常强的依赖性,应用较为有限。
现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,具有结构化程度高、独立性强、冗余度低等优点。1970年关系型数据库的诞生,真正彻底把软件中的数据和程序分开来,成为主流计算机系统不可或缺的组成部分。关系型数据库已经成为目前数据库产品中最重要的一员,几乎所有的数据库厂商新出的数据库产品都支持关系型数据库,即使一些非关系数据库产品也几乎都有支持关系数据库的接口。
关系型数据库的主要用于联机事务处理OLTP(On-Line Transaction Processing)主要进行基本的、日常的事务处理,例如银行交易等场景。
什么是数据仓库?
随着数据库的大规模应用,以及信息行业的数据爆炸式的增长。为了研究数据之间的关系,挖掘数据隐藏的价值,人们越来越多的需要使用联机分析处理OLAP(On-Line Analytical Processing)进行数据分析,探究一些深层次的关系和信息。但是不同的数据库之间很难做到数据共享,数据之间的集成与分析也存在非常大的挑战。
为解决企业的数据集成与分析问题,数据仓库之父比尔·恩门于1990年提出数据仓库(Data Warehouse)。数据仓库主要功能是将OLTP经年累月所累积的大量数据,通过数据仓库特有的数据储存架构进行OLAP,最终帮助决策者能快速有效地从大量数据中,分析出有价值的信息,提供决策支持。自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。
数据仓库相比数据库,主要有以下两个特点:
- 数据仓库是面向主题集成的。数据仓库是为了支撑各种业务而建立的,数据来自于分散的操作型数据。因此需要将所需数据从多个异构的数据源中抽取出来,进行加工与集成,按照主题进行重组,最终进入数据仓库。
- 数据仓库主要用于支撑企业决策分析,所涉及的数据操作主要是数据查询。因此数据仓库通过表结构优化、存储方式优化等方式提高查询速度、降低开销。
维度 |
数据仓库 |
数据库 |
---|---|---|
应用场景 |
OLAP |
OLTP |
数据来源 |
多数据源 |
单数据源 |
数据标准化 |
非标准化Schema |
高度标准化的静态Schema |
数据读取优势 |
针对读操作进行优化 |
针对写操作进行优化 |
什么是数据湖?
在企业内部,数据是一类重要资产已经成为了共识。随着企业的持续发展,数据不断堆积,企业希望把生产经营中的所有相关数据都完整保存下来,进行有效管理与集中治理,挖掘和探索数据价值。
数据湖就是在这种背景下产生的。数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。
- 数据存储架构:要有足够的扩展性和可靠性,可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。
- 数据处理工具,则分为两大类:
- 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。
- 第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力、全面的数据生命周期管理能力、安全的数据获取和数据发布能力。如果没有这些数据治理工具,元数据缺失,湖里的数据质量就没法保障,最终会由数据湖变质为数据沼泽。
随着大数据和AI的发展,数据湖中数据的价值逐渐水涨船高,价值被重新定义。数据湖能给企业带来多种能力,例如实现数据的集中式管理,帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。
对于数据仓库与数据湖的不同之处,可以类比为仓库和湖泊的区别:仓库存储着来自特定来源的货物;而湖泊的水来自河流、溪流和其他来源,并且是原始数据。
维度 |
数据湖 |
数据仓库 |
---|---|---|
应用场景 |
可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等。 |
通过历史的结构化数据进行数据分析。 |
使用成本 |
起步成本低,后期成本较高。 |
起步成本高,后期成本较低。 |
数据质量 |
包含大量原始数据,使用前需要清洗和标准化处理。 |
质量高,可作为事实依据。 |
适用对象 |
数据科学家、数据开发人员为主。 |
业务分析师为主。 |
什么是湖仓一体?
虽然数据仓库和数据湖的应用场景和架构不同,但它们并不是对立关系。数据仓库存储结构化的数据,适用于快速的BI和决策支撑,而数据湖可以存储任何格式的数据,往往通过挖掘能够发挥出数据的更大作为,因此在一些场景上二者的并存可以给企业带来更多收益。
湖仓一体,又被称为Lake House,其出发点是通过数据仓库和数据湖的打通和融合,让数据流动起来,减少重复建设。Lake House架构最重要的一点,是实现数据仓库和数据湖的数据/元数据无缝打通和自由流动。湖里的“显性价值”数据可以流到仓里,甚至可以直接被数仓使用;而仓里的“隐性价值”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。
数据智能方案
数据治理中心DataArts Studio为大型政企客户量身定制跨越孤立系统、感知业务的数据资源智能管理解决方案,实现全域数据入湖,帮助政企客户从多角度、多层次、多粒度挖掘数据价值,实现数据驱动的数字化转型。
数据治理中心DataArts Studio的核心主要是智能数据湖FusionInsight,包含数据库、数据仓库、数据湖等各计算引擎平台,提供了数据使能的全套能力,支持数据的采集、汇聚、计算、资产管理、数据开放服务的全生命周期管理。
拥有强大的湖、仓、库引擎技术,比如数据湖敏捷构建、GaussDB数据库快速迁移,数仓的实时分析等,对应服务如下:
- 数据库:
- 关系型数据库包括:云数据库RDS、云数据库GaussDB(for MySQL)、云数据库GaussDB、云数据库PostgreSQL、云数据库 SQL Server等。
- 非关系型数据库包括:文档数据库服务DDS、云数据库GeminiDB等。
- 数据仓库:云数据仓库GaussDB(DWS)。
- 数据湖\湖仓一体:MapReduce服务MRS,数据湖探索DLI等。
- 数据治理中心:数据治理中心DataArts Studio。