计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

什么是数据仓库服务

更新时间:2025-01-23 GMT+08:00

数据仓库服务GaussDB(DWS)是一种基于华为云基础架构和平台的在线数据分析处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务,兼容ANSI/ISO标准的SQL92、SQL99和SQL 2003语法,同时兼容PostgreSQL/Oracle/Teradata/MySQL等数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。

DWS提供存算一体、存算分离多种产品形态,围绕企业级内核、实时分析、协同计算、融合分析、云原生五大方向构筑业界第一数据仓库。详情请参见数据仓库类型

  • 存算一体:面向数据分析场景,为用户提供高性能、高扩展、高可靠、高安全、易运维的企业级数仓服务,支持2048节点、20PB级超大规模数据分析能力,适用于“库、仓、市、湖”一体化的融合分析业务。
  • 存算分离:采用存算分离云原生架构,计算、存储分层弹性伸缩,极致性价比,采用多逻辑集群(Virtual Warehouse,以下简称VW)共享存储技术,实现不同负载的计算隔离和并发扩展,适用于OLAP分析场景。

GaussDB(DWS) 可广泛应用于金融、车联网、政企、电商、能源、电信等多个领域,已连续两年入选Gartner发布的数据管理解决方案魔力象限,相比传统数据仓库,性价比提升数倍,具备大规模扩展能力和企业级可靠性。

此外,GaussDB(DWS)也支持物理机部署模式,详情请参见物理机部署文档

集群逻辑架构

GaussDB(DWS)集群逻辑架构如图1所示。实例的详细介绍请参见表1

图1 集群逻辑架构图
表1 集群架构说明

名称

描述

说明

CM

集群管理模块(Cluster Manager)。管理和监控分布式系统中各个功能单元和物理资源的运行情况,确保整个系统的稳定运行。

CM由CM Agent、OM Monitor和CM Server组成。

  • CM Agent:负责监控所在主机上主备GTM、CN、主备DN的运行状态并将状态上报给CM Server。同时负责执行CM Server下发的仲裁指令。集群的每台主机上均有CM Agent进程。
  • OM Monitor:看护CM Agent的定时任务,其唯一的任务是在CM Agent停止的情况下将CM Agent重启。如果CM Agent重启不了,则整个主机不可用,需要人工干预。
    说明:

    CM Agent重启的情况很少发生,如果出现可能是因为系统资源不够用导致无法启动新进程。

  • CM Server:根据CM Agent上报的实例状态判定当前状态是否正常,是否需要修复,并下发指令给CM Agent执行。

GaussDB(DWS)提供了CM Server的主备实例方案,以保证集群管理系统本身的高可用性。正常情况下,CM Agent连接主CM Server,在主CM Server发生故障的情况下,备CM Server会主动升为主CM Server,避免出现CM Server单点故障。

GTM

全局事务管理器(Global Transaction Manager),负责生成和维护全局事务ID、事务快照、时间戳等全局唯一的信息。

整个集群只有一组GTM:主、备GTM各一个。

WLM

工作负载管理器(Workload Manager)。控制系统资源的分配,防止过量业务负载对系统的冲击而导致业务拥塞和系统崩溃。

不同于集群中的实例(GTM、CM、CN、DN)模块,不需要在安装过程中指定主机名称。安装程序会自动在各主机上安装此模块。

CN

协调节点(Coordinator)。负责接收来自应用的访问请求,并向客户端返回执行结果;负责分解任务,并调度任务分片在各DN上并行执行。

集群中,CN有多个并且CN的角色是对等的(执行DML语句时连接到任何一个CN都可以得到一致的结果)。只需要在CN和应用程序之间增加一个负载均衡器,使得CN对应用是透明的。CN故障时,由负载均衡自动路由连接到另外一个CN,请参见集群绑定和解绑ELB

当前分布式事务框架下无法避免CN之间的互连,为了减少GTM上线程过多导致负载过大,建议CN配置数目≤10个。

GaussDB(DWS)通过CCN(Central Coordinator )负责集群内的资源全局负载控制,以实现自适应的动态负载管理。CM在第一次集群启动时,通过集群部署形式,选择编号最小的CN作为CCN。若CCN故障之后,由CM选择新的CCN进行替换。

DN

数据节点(Datanode)。负责存储业务数据(支持行存、列存、混合存储)、执行数据查询任务以及向CN返回执行结果。

在集群中,DN有多个。每个DN存储了一部分数据。GaussDB(DWS)对DN提供了高可用方案:主DN、备DN、从备DN。三者的工作原理如下:

  • 主、备DN同步数据期间,如果主DN突然故障不可用,备DN会升为主DN。
  • 在原主DN恢复前,新升为主的DN会将数据日志同步到从备DN。
  • 原主DN恢复后将成为备DN,并且会使用“从备DN”上的数据日志恢复异常期间的数据。

也就是说从备DN永远只作为从备使用,不会因为主DN或备DN故障而升级为主DN或备DN,从备DN只存放原主DN故障时,新升为主的DN同步到从备DN的Xlog数据和数据通道复制产生的数据。因此从备DN不额外占用存储资源,相比传统三副本节约了三分之一的存储空间。

Storage

服务器的本地存储资源,持久化存储数据。

-

集群的每个DN上负责存储数据,其存储介质也是磁盘。图2从逻辑上介绍了每个DN上都有哪些对象,以及这些对象之间的关系,其中:

  • Database,即数据库,用于管理各类数据对象,各数据库间相互隔离。
  • Datafile Segment,即数据文件,通常每张表只对应一个数据文件。如果某张表的数据大于1GB,则会分为多个数据文件存储。
  • Table,即表,每张表只能属于一个数据库。
  • Block,即数据块,是数据库管理的基本单位,默认大小为8KB。

数据有三种分布方式,可以在建表的时候指定:REPLICATION、ROUNDROBIN 、HASH。

图2 数据库逻辑结构图

集群物理架构

GaussDB(DWS)支持存算一体架构和存算分离架构。

其中,存算一体架构,数据存储在DN本地盘上。存算分离架构,DN本地盘仅做数据缓存和存储元数据,用户数据存储在OBS对象存储上。您可以根据需要选择相应的架构。

图3 架构选择

存算一体架构

GaussDB(DWS)基于Shared-nothing分布式架构,具备MPP(Massively Parallel Processing)大规模并行处理引擎,由众多拥有独立且互不共享的CPU、内存、存储等系统资源的逻辑节点组成。在这样的系统架构中,业务数据被分散存储在多个节点上,数据分析任务被推送到数据所在位置就近执行,并行地完成大规模的数据处理工作,实现对数据处理的快速响应。

图4 产品架构
  • 应用层

    数据加载工具、ETL(Extract-Transform-Load)工具、以及商业智能BI工具、数据挖掘和分析工具,均可以通过标准接口与GaussDB(DWS)集成。GaussDB(DWS)兼容PostgreSQL生态,且SQL语法进行了兼容MySQL、Oracle和Teradata的处理。应用只需做少量改动即可向GaussDB(DWS)平滑迁移。

  • 接口

    支持应用程序通过标准JDBC和ODBC连接GaussDB(DWS)。

  • GaussDB(DWS)

    一个GaussDB(DWS)集群由多个在相同子网中的相同规格的节点组成,共同提供服务。集群的每个DN负责存储数据,其存储介质是磁盘。协调节点(Coordinator)负责接收来自应用的访问请求,并向客户端返回执行结果。此外,协调节点还负责分解任务,并调度任务分片在各DN上并行执行。

  • 自动数据备份

    支持将集群快照自动备份到EB级对象存储服务OBS(Object Storage Service)中,方便利用业务空闲期对集群做周期备份以保证集群异常后的数据恢复。

    快照是GaussDB(DWS)集群在某一时间点的完整备份,记录了该时刻指定集群的所有配置数据和业务数据。

  • 工具链

    提供了数据并行加载工具GDS(General Data Service)、SQL语法迁移工具DSC(Database Schema Convertor)、SQL开发工具Data Studio、迁移工具GDS-Kafka,并支持通过控制台对集群进行运维监控。

存算分离架构

GaussDB(DWS)全新推出云原生存算分离集群,利用云基础设施提供的资源池化和海量存储能力,结合MPP数据库技术,采用计算存储分离架构,实现了极致弹性、实时入库、数据实时共享和湖仓一体等特性。

存算分离集群采用计算存储分离架构,解决了计算存储必须等比例缩放的问题。赋能用户面向业务峰谷时,对计算能力进行快速且独立的扩缩要求,同时保证存储无限扩展、按需付费,快速、敏捷的响应业务变化,同时具有更高的性价比,进一步助力企业降本增效。

存算分离集群具有以下优势:

  • 湖仓一体:提供简单、易维护的湖仓一体体验,无缝对接DLI,支持元数据自动导入、外部表查询加速、内外表关联查询,支持数据湖格式读写,简化数据入湖入仓。
  • 实时写入:提供H-Store存储引擎,对实时写入场景进行了设计优化,支持高吞吐实时写入与更新,同时支持大批量写入场景。
  • 极致弹性:计算资源快速伸缩,存储空间按需使用,同时大幅度降低存储成本。历史数据无需再迁移到其他存储介质上,让数据分析更简单,一站式解决金融、互联网等行业快速增长的数据分析需求。
  • 数据共享:一份数据承载多样负载,数据实时共享,多写多读的使用模式,在支持不同业务数据快速共享的同时,具备良好的计算资源隔离能力。
图5 存算分离架构

  • 极致弹性
    • 逻辑集群(Virtual Warehouse) 随业务需求并发扩展。
    • 多VW间数据实时共享,一份数据承载多样负载,无需拷贝。
    • 通过多VW实现吞吐/并发的线性提升,同时具备良好的读写分离、负载隔离能力。
  • 湖仓一体
    • 数据湖与数据仓库数据无缝混合查询。
    • 数据湖分析体验数仓的极致性能和精准管控度。

存算一体与存算分离产品形态对比

表2 存算分离与存算一体差异

数仓类型

存算一体

存算分离

存储介质

数据存储在计算节点的本地磁盘。

列存数据存储在华为云对象存储,本地磁盘主要作为OBS数据的查询缓存,行存仍然存储在计算节点本地磁盘。

产品优势

数据存储在计算节点本地,性能高。

存算分离,计算、存储分层弹性,存储按需使用,计算快速伸缩,无限算力、无限容量。

数据存储在对象存储上,存储成本更低,多VW支持的并发更高。

支持数据共享,支持湖仓一体。

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容