最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据仓库服务
- 什么是数据仓库服务
- 数据仓库类型
- 数据仓库规格
- 产品优势
- 应用场景
- 产品功能
- 基本概念
- 与其他云服务的关系
- 安全
- GaussDB(DWS)权限管理
- 如何访问GaussDB(DWS)
- 使用限制
- 技术支持
- 配额说明
- GaussDB(DWS)技术指标
计费说明
- GaussDB(DWS)计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
  - 续费概述
  - 手动续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- 免费体验GaussDB(DWS)
- 快速创建GaussDB(DWS)集群并导入数据进行查询
- GaussDB(DWS)数据开发SQL入门操作
- GaussDB(DWS)入门实践
用户指南
- GaussDB(DWS)使用流程
- 准备工作
- 创建GaussDB(DWS)集群
- 连接GaussDB(DWS)集群
- 创建GaussDB(DWS)数据库和用户
- 迁移业务数据至GaussDB(DWS)集群
  - 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群
  - 管理数据源
- GaussDB(DWS)集群数据安全与加密
- GaussDB(DWS)集群管理
- GaussDB(DWS)集群运维
最佳实践
- 导入导出
- 数据迁移
- 数据分析
- 存算分离
  - GaussDB(DWS) 3.0 存算分离使用建议及性能优化
- 数据开发
- 数据库管理
- 性能调优
  - 基于表结构设计和调优提升GaussDB(DWS)查询性能
  - 分析正在执行的SQL以处理GaussDB(DWS)业务阻塞
- 集群管理
  - 为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力
  - GaussDB(DWS)存算一体架构弹性伸缩系统性介绍
数据迁移与同步
- 迁移数据到GaussDB(DWS)
- 导入数据
- 整库迁移
  - 使用CDM迁移数据到GaussDB(DWS)
  - 使用DSC工具迁移SQL脚本
- 实时入库
  - Kafka实时入库到GaussDB(DWS)
- 元数据迁移
  - 使用gs_dump和gs_dumpall命令导出元数据
  - 使用gs_restore导入数据
- 导出数据
- 其他操作
开发指南
- 标准数仓开发指南(9.1.0.x)
- 标准数仓开发指南(8.1.3.x)
- 实时数仓开发指南(9.1.0.x)
- 实时数仓开发指南(8.1.3.x)
- 历史版本
SQL语法参考
- SQL语法参考(9.1.0.x)
- SQL语法参考(8.1.3.x)
- 历史版本
工具指南
- 工具简介
- 工具下载
- gsql
- Data Studio
- GDS
- DSC
- DataCheck
- DWS-Connector
- 服务端工具
API参考
- 使用前必读
- API概述
- 如何调用API
- 快速入门
- API说明
- 应用示例
  - 使用Postman调用创建集群接口
  - 使用Postman调用创建快照接口
- 权限及授权项说明
- 附录
SDK参考
- SDK概述
场景代码示例
错误码参考
- 控制台错误码
  - 管理控制台错误码
- 错误码(8.2.0及以下版本)
  - 管理控制台错误码
  - 数据仓库错误码
- 8.2.1及以上版本
  - 错误码命名规范
  - 行列存
    - 行存
    - 列存
    - GIN索引
    - Btree索引
    - 行存vacuum
    - SP-GiST索引
    - Hash索引
  - 事务
    - 锁
    - GTM
    - xlog
    - checkpoint
  - HA
  - SQL on Anywhere
    - SQL on hudi
    - OBS / HDFS / DLI
  - GDS/Copy
    - 公共机制（选项参数、任务分配、压缩）
    - 导入
  - 解析器
    - 词法分析
    - 语法分析
    - DDL
    - DML
    - 表达式
    - 元数据
  - 优化器
  - 执行器
  - 安全
    - 授权
    - 脱敏
  - 通信
  - WLM
  - 逻辑集群
  - 其他
常见问题
- Top问题汇总
- 产品咨询
- 数据库连接
- 数据迁移
- 数据库使用
- 集群管理
- 账户与权限
- 数据库性能
- 备份恢复
  1. 为什么DWS自动快照创建很慢，很长时间都没有创建好？
  2. DWS快照是否与EVS快照功能相同？
故障排除
- 数据库连接管理
- JDBC/ODBC类
- 数据导入/导出
- 数据库参数修改
- 账号/权限/密码
- 集群性能
- 集群异常
  - 磁盘监控告警阈值太低，告警频繁
- 数据库使用
视频帮助
性能白皮书
- 性能白皮书(9.1.0.x)
- 性能白皮书(8.1.3.x)
文档下载
通用参考
- 产品术语
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 数据仓库服务 GaussDB(DWS)/ 开发指南/ 实时数仓开发指南(8.1.3.x)/ 实时数仓简介

实时数仓简介

更新时间：2025-01-07 GMT+08:00

查看PDF

实时数仓在大规模数据查询和分析能力基础上，提供高并发、高性能、低时延、低成本的事务处理能力。

说明：

如需使用实时数仓能力，请在DWS控制台创建集群时，选择存算一体1:4云盘规格，了解更多参见存算一体规格。
创建DWS集群选择1:8云盘规格为标准数仓，1:4云盘规格为实时数仓，以下内容描述的“实时数仓”、“标准数仓”即通过以上规格区分。

实时数仓需要支持将insert+upsert+update等操作实时快速入库，数据来源于上游的其他数据库或者应用，同时要求入库后的数据能及时查询，并对于查询的效率要求很高。

目前GaussDB(DWS)传统数仓已有的行存表或者列存表都无法同时满足实时入库和实时查询两个诉求。其中行存表实时入库能力强，支持高并发更新，但是磁盘占用高，查询效率低；列存表数据压缩率高，AP查询性能好，但是不能很好的支持并发更新，并发入库存在严重的锁冲突。

为了解决上面的问题，需要在使用列存储格式尽量降低磁盘占用的同时，支持高并发的更新操作入库以及高性能的查询效率。GaussDB(DWS)的实时数仓中的HStore表就是针对这种情况设计和实现的，面向对于实时入库和实时查询有较强诉求的场景，同时拥有处理传统TP场景的事务能力。

GaussDB(DWS)提供的实时数仓中实现了一种全新的HStore表，可以做到单条或者小批量IUD操作的高并发实时入库，也可以支持大批量的定期入库。数据入库提交后即可查询，无任何时延。支持主键等传统索引能力去重和加速点查，也支持分区、多维字典、局部排序等方式进一步加速AP查询，也可以在TPCC这种强事务压力场景下保证数据强一致性。

说明：

实时数仓的HStore表仅8.2.0.100及以上集群版本支持。
实时数仓为一库两用，生产即分析，适用于交易、分析混合型业务场景，分为单机、集群两种模式。关于如何创建实时数仓请参见创建DWS 2.0集群。
HStore表支持冷热数据管理，具体可参考冷热数据管理，该功能仅8.2.0.101及以上集群版本支持。
HStore表是实时数仓中设计的一种表类型，与SQL参数hstore没有任何关系。

与标准数仓的区别

实时数仓与标准数仓是GaussDB(DWS)的两种规格不一样的数仓，在使用上也存在一定差异，具体可参考表1进行对比分析。

表1 实时数仓与标准数仓的差异
数仓类型	标准数仓（存算一体1:8云盘规格）	实时数仓（存算一体1:4云盘规格）
适用场景	融合分析业务，一体化OLAP分析场景。主要应用于金融、政企、电商、能源等领域。	实时入库+分析混合业务，上游数据实时入库+数据入库后实时高效查询场景。主要用于电商、金融等实时入库要求高的场景。
产品优势	性价比高，使用场景广泛。支持冷热数据分析，存储、计算弹性伸缩，无限算力、无限容量等。	混合负载，入库性能强。提供与列存相当的高性能查询效率与高压缩率的数据压缩能力。同时拥有处理传统TP场景的事务能力。
功能特点	支持海量数据离线处理和交互查询，数据规模大、复杂数据挖掘具有很好的性能优势。	支持海量数据高并发的更新操作入库以及高性能的查询效率。在数据规模大、入库并发高、查询要求高的场景下具有很好的性能优势。
SQL语法	SQL语法兼容性高，语法通用，易于使用。	兼容列存语法。
GUC参数	丰富的GUC参数，根据客户业务场景适配最适合客户的数仓环境。	兼容标准数仓GUC参数，同时支持实时数仓调优参数。

技术特点

完整的事务一致性
 体现在数据插入或者更新后提交即可见，不存在时延；并发更新后数据保证强一致，不会出现乱序导致的结果预期不一致。
查询性能好
 多表关联等复杂AP查询场景下，更完善的分布式查询计划与分布式执行器带来的性能优势，支持复杂的子查询和存储过程。
入库快
 彻底解决列存CU锁冲突问题，支持高并发的更新入库操作，典型场景下，并发更新性能是之前的百倍以上。
高压缩
 数据在MERGE进入列存主表后，按列存储具有天然的压缩优势，能极大地节省磁盘空间与IO资源。
查询加速
 支持主键等传统索引能力去重和加速点查，也支持分区、多维字典、局部排序等方式进一步加速AP查询。

行存、列存、HStore表对比

表2 行存、列存、HStore表对比
表类型	行存表	列存表	HStore表
数据存储方式	以元组为单位，将每一条数据的所有属性值存储到临近的空间里。	以CU（Compress Unit）为单位，将单个属性的所有值存储到临近的空间里。	数据主要以CU形式存储在列存主表上，对于被更新的列、小批量插入的数据将被序列化后存储到新设计的Delta表上。
数据写入	行存压缩暂未商用，数据按原始状态存储，磁盘空间占用较大。	按列存储时，由于属性值类型相同具有天然的压缩优势。数据写入时能极大节省IO资源与磁盘空间占用。	批量插入的数据直接写入CU，具有与列存一致的压缩优势。被更新的列、小批量插入的数据会序列化后压缩。同时定期MERGE到主表CU。
数据更新	数据按行更新，没有CU锁问题，并发更新（update/upsert/delete等）性能好。	即使更新单条数据，也要获取整个CU的锁，基本无法支持并发更新（update/upsert/delete等）。	彻底解决列存更新的CU锁问题，并发更新（update/upsert/delete等）的性能达到行存的60%以上。
数据读取	按行读取，即使只需访问某一列的数据，也需要将一整行的数据取出。查询性能较差。	按列读取时只需访问该列的CU，再加上CU的压缩优势导致需要占用的IO资源更少，读取性能很好。	对于列存主表的数据按列读取，对于被更新的列、小批量插入的数据会反序列化后取出，数据MERGE到主表后具有与列存一致的数据读取优势。
优点	并发更新性能好。	查询性能好，磁盘占用空间少。	并发更新性能好，数据MERGE后具有与列存一致的查询性能优势与压缩优势。
缺点	占用磁盘空间多，查询性能差。	基本无法支持并发更新。	需要后台常驻线程对HStore表进行MERGE清理操作。先MERGE到CU主表再进行清理，与SQL语法中的Merge无关。
适用场景	更新删除操作频繁的TP事务场景。点查询（基于索引的、返回数据量小的简单查询）。	查询分析为主的AP场景。数据量大，存入后的更新删除操作少。	实时并发入库场景。需要支持高并发的更新入库操作以及高性能的查询效率。

下一篇：支持与限制

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

实时数仓简介

与标准数仓的区别

技术特点

行存、列存、HStore表对比

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈