为什么要使用云数据仓库服务GaussDB(DWS) ?
现状和需求
大量的企业经营性数据(订单,库存,原料,付款等)在企业的业务运营系统以及其后台的(事务型)数据库中产生的。
企业的决策者需要及时地对这些数据进行归类分析,从中获得企业运营的各种业务特征,为下一步的经营决策提供数据支撑。
困难
对数据的归类分析往往涉及到对多张数据库表数据的同时访问, 即需要同时锁住多张可能正在被不同事务更新的表单。这对业务繁忙的数据库系统来说可能是一件非常困难的事情 。
- 一方面很难把多张表同时锁住,造成复杂查询的时延增加。
- 另一方面如果锁住了多张表,又会阻挡数据库表单更新的事务,造成业务的延时甚至中断。
解决方案
数据仓库主要适用于企业数据的关联和聚合等分析场景, 并从中发掘出数据背后的商业信息供决策者参考。这里的数据发掘主要指涉及多张表的大范围数据聚合和关联的复杂查询。
使用数据仓库,通过某个数据转换(ETL)的过程,业务运营数据库的数据可以被拷贝到数据仓库中供分析计算使用。同时支持把多个业务运营系统的数据汇集到一个数据仓库中。这样数据可以被更好地关联和分析,从而产生更大的价值。
数据仓库采用了一些和标准的面向事务的数据库(Oracle,MS SQL Server,MySQL等)不一样的设计,特别是针对数据的聚合性和关联性做了特别的优化,有些时候为了这些优化甚至可能会牺牲掉一些标准数据库的事务或者数据增删改的功能或者性能。因此,数据仓库和数据库的使用场景还是有所不同的。事务型数据库专注于事务处理(企业的业务运营),而数据仓库更擅长于复杂的数据分析。两者各司其职,互不干扰。简单一句话可以理解为,数据库主要负责数据更新,数据仓库主要负责数据分析。
云数据仓库解决方案
传统的数据仓库售价昂贵,设备系统选型,采购周期长,扩容复杂,整体运行成本十分高昂,因此很难为中小企业所采纳。
云数据仓库服务GaussDB(DWS)与传统的数据仓库相比,主要有以下特点与显著优势:
- 一款分布式MPP数据仓库云化服务,具备开放,高效,兼容,可扩展,易运维等特点。
- 基于GaussDB数据仓库产品内核,以云上数据仓库服务的形式将GaussDB(DWS)的能力提供给云平台上的企业用户,打造云上云下一致的数据仓库用户体验。
GaussDB(DWS)是具有自主知识产权的新一代分布式数据仓库系统。目前已经被广泛地应用在政府,金融,运营商等行业当中。该产品不仅兼容主流开源Postgres系列数据库,而且特别针对Oracle和Teradata的SQL语法进行了兼容性增强,在很多场合都可以替代同类型产品。 数据仓库服务工程师重点设计实现了基于行列混存的数据仓库内核,在支持海量数据快速分析的同时也很好地兼顾了业务运作系统对数据增删改的需求。引入了基于代价的查询优化器,以及当前数据仓库系统所流行的一些黑科技,包括机器码级别的向量计算,算子间和算子内的并行,节点内和节点间并行,使用LLVM优化编译查询计划的本机代码等。这些黑科技极大地提高了数据查询和分析的性能,为用户带来了更好的体验,解决了特定场景当中的业务痛点。
- GaussDB(DWS)服务即开即用
相比以前动辄长达数月的数据仓库选型采购过程,在云上开通使用数据仓库服务只需要数分钟时间,简化了企业用户的购买过程,使用数据仓库的方式,降低使用数据仓库的代价和门槛,让数据仓库实实在在地走进千万家大中小企业, 让数据为企业的发展和决策提供其应有的价值。