最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据仓库服务
- 什么是数据仓库服务
- 数据仓库类型
- 数据仓库规格
- 产品优势
- 应用场景
- 产品功能
- 基本概念
- 与其他云服务的关系
- 安全
- GaussDB(DWS)权限管理
- 如何访问GaussDB(DWS)
- 使用限制
- 技术支持
- 配额说明
- GaussDB(DWS)技术指标
计费说明
- GaussDB(DWS)计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
  - 续费概述
  - 手动续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- 免费体验GaussDB(DWS)
- 快速创建GaussDB(DWS)集群并导入数据进行查询
- GaussDB(DWS)数据开发SQL入门操作
- GaussDB(DWS)入门实践
用户指南
- GaussDB(DWS)使用流程
- 准备工作
- 创建GaussDB(DWS)集群
- 连接GaussDB(DWS)集群
- 创建GaussDB(DWS)数据库和用户
- 迁移业务数据至GaussDB(DWS)集群
  - 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群
  - 管理数据源
- GaussDB(DWS)集群数据安全与加密
- GaussDB(DWS)集群管理
- GaussDB(DWS)集群运维
最佳实践
- 导入导出
- 数据迁移
- 数据分析
- 存算分离
  - GaussDB(DWS) 3.0 存算分离使用建议及性能优化
- 数据开发
- 数据库管理
- 性能调优
  - 基于表结构设计和调优提升GaussDB(DWS)查询性能
  - 分析正在执行的SQL以处理GaussDB(DWS)业务阻塞
- 集群管理
  - 为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力
  - GaussDB(DWS)存算一体架构弹性伸缩系统性介绍
数据迁移与同步
- 迁移数据到GaussDB(DWS)
- 导入数据
- 整库迁移
  - 使用CDM迁移数据到GaussDB(DWS)
  - 使用DSC工具迁移SQL脚本
- 实时入库
  - Kafka实时入库到GaussDB(DWS)
- 元数据迁移
  - 使用gs_dump和gs_dumpall命令导出元数据
  - 使用gs_restore导入数据
- 导出数据
- 其他操作
开发指南
- 标准数仓开发指南(9.1.0.x)
- 标准数仓开发指南(8.1.3.x)
- 实时数仓开发指南(9.1.0.x)
- 实时数仓开发指南(8.1.3.x)
- 历史版本
SQL语法参考
- SQL语法参考(9.1.0.x)
- SQL语法参考(8.1.3.x)
- 历史版本
工具指南
- 工具简介
- 工具下载
- gsql
- Data Studio
- GDS
- DSC
- DataCheck
- DWS-Connector
- 服务端工具
API参考
- 使用前必读
- API概述
- 如何调用API
- 快速入门
- API说明
- 应用示例
  - 使用Postman调用创建集群接口
  - 使用Postman调用创建快照接口
- 权限及授权项说明
- 附录
SDK参考
- SDK概述
场景代码示例
错误码参考
- 控制台错误码
  - 管理控制台错误码
- 错误码(8.2.0及以下版本)
  - 管理控制台错误码
  - 数据仓库错误码
- 8.2.1及以上版本
  - 错误码命名规范
  - 行列存
    - 行存
    - 列存
    - GIN索引
    - Btree索引
    - 行存vacuum
    - SP-GiST索引
    - Hash索引
  - 事务
    - 锁
    - GTM
    - xlog
    - checkpoint
  - HA
  - SQL on Anywhere
    - SQL on hudi
    - OBS / HDFS / DLI
  - GDS/Copy
    - 公共机制（选项参数、任务分配、压缩）
    - 导入
  - 解析器
    - 词法分析
    - 语法分析
    - DDL
    - DML
    - 表达式
    - 元数据
  - 优化器
  - 执行器
  - 安全
    - 授权
    - 脱敏
  - 通信
  - WLM
  - 逻辑集群
  - 其他
常见问题
- Top问题汇总
- 帮助与支持
- 产品咨询
- 数据库连接
- 数据迁移
- 数据库使用
- 集群管理
- 账户与权限
- 数据库性能
- 备份恢复
  1. 为什么GaussDB(DWS)自动快照创建很慢，很长时间都没有创建好？
  2. GaussDB(DWS)快照是否与EVS快照功能相同？
故障排除
- 数据库连接管理
- JDBC/ODBC类
- 数据导入/导出
- 数据库参数修改
- 账号/权限/密码
- 集群性能
- 集群异常
  - 磁盘监控告警阈值太低，告警频繁
- 数据库使用
视频帮助
性能白皮书
- 性能白皮书(9.1.0.x)
- 性能白皮书(8.1.3.x)
文档下载
通用参考
- 产品术语
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 数据仓库服务 GaussDB(DWS)/ 开发指南/ 标准数仓开发指南(9.1.0.x)/ GaussDB(DWS)开发设计建议/ GaussDB(DWS)各对象设计详细规则/ GaussDB(DWS)数据库对象设计规则/ GaussDB(DWS)表设计规则

GaussDB(DWS)表设计规则

更新时间：2024-12-06 GMT+08:00

查看PDF

GaussDB(DWS)是分布式架构。数据分布在各个DN上。总体上讲，良好的表设计需要遵循以下原则：

【关注】将表数据均匀分布在各个DN上。数据均匀分布，可以防止数据在部分DN上集中分布，从而导致因存储倾斜造成集群有效容量下降。通过选择合适的分布列，可以避免数据倾斜。
【关注】将表的扫描压力均匀分散在各个DN上。避免扫描压力集中在部分DN上，而导致性能瓶颈。例如，在事实表上使用等值过滤条件时，将会导致扫描压力不均匀。
【关注】减少需要扫描的数据量。通过分区表的剪枝机制可以大幅减少数据的扫描量。
【关注】尽量减少随机I/O。通过聚簇/局部聚簇可以实现热数据的连续存储，将随机I/O转换为连续I/O，从而减少扫描的I/O代价。
【关注】尽量避免数据shuffle。shuffle是指在物理上，数据从一个节点传输到另一个节点。shuffle占用了大量宝贵的网络资源，减小不必要的数据shuffle，可以减少网络压力，使数据的处理本地化，提高集群的性能和可支持的并发度。通过对关联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。

选择存储方案

【建议】表的存储类型是表定义设计的第一步，用户业务类型是决定表的存储类型的主要因素，表存储类型的选择依据请参考表1。

表1 表的存储类型及场景
存储类型	适用场景
行存	点查询(返回记录少，基于索引的简单查询)。增、删、改操作较多的场景。
列存	统计分析类查询 (关联、分组操作较多的场景)。即席查询（查询条件不确定，行存表扫描难以使用索引）。

对于分析场景，建表需显式设置ORIENTATION 选项为列存。

    
       CREATE TABLE  public.t1 
( 
id integer not null,  
data integer, 
age integer 
)  
WITH (ORIENTATION =COLUMN);

选择分布方案

【建议】表的分布方式的选择一般遵循以下原则：

表2 表的分布方式及使用场景
分布方式	描述	适用场景
Hash	表数据通过Hash方式散列到集群中的所有DN上。	数据量较大的事实表。
Replication	集群中每一个DN都有一份全量表数据。	维度表、数据量较小的事实表。
Roundrobin	表的每一行被轮番地发送给各个DN，因此数据会被均匀地分布在各个DN中。	数据量较大的事实表，且使用Hash分布时找不到合适的分布列。

选择分区方案

当表中的数据量很大时，应当对表进行分区，一般需要遵循以下原则：

【建议】使用具有明显区间性的字段进行分区，比如日期、区域等字段上建立分区。
【建议】分区名称应当体现分区的数据特征。例如，关键字+区间特征。
【建议】将分区上边界的分区值定义为MAXVALUE，以防止可能出现的数据溢出。

典型的分区表定义如下：

    
     
       
       CREATE TABLE staffS_p1
(
  staff_ID       NUMBER(6) not null,
  FIRST_NAME     VARCHAR2(20),
  LAST_NAME      VARCHAR2(25),
  EMAIL          VARCHAR2(25),
  PHONE_NUMBER   VARCHAR2(20),
  HIRE_DATE      DATE,
  employment_ID  VARCHAR2(10),
  SALARY         NUMBER(8,2),
  COMMISSION_PCT NUMBER(4,2),
  MANAGER_ID     NUMBER(6),
  section_ID     NUMBER(4)
)
PARTITION BY RANGE (HIRE_DATE)
( 
   PARTITION HIRE_19950501 VALUES LESS THAN ('1995-05-01 00:00:00'),
   PARTITION HIRE_19950502 VALUES LESS THAN ('1995-05-02 00:00:00'),
   PARTITION HIRE_maxvalue VALUES LESS THAN (MAXVALUE)
);

      

    
   

选择分布键

Hash表的分布键选取至关重要，如果分布键选择不当，可能会导致数据倾斜，从而导致查询时，I/O负载集中在部分DN上，影响整体查询性能。因此，在确定Hash表的分布策略之后，需要对表数据进行倾斜性检查，以确保数据的均匀分布。分布键的选择一般需要遵循以下原则：

【建议】选作分布键的字段取值应该比较离散，以便数据能在各个DN上均匀分布。当单个字段无法满足离散条件时，可以考虑使用多个字段一起作为分布键。一般情况下，可以考虑选择表的主键作为分布键。例如，在人员信息表中选择证件号码作为分布键。
【建议】在满足第一条原则的情况下，尽量不要选取在查询中存在常量过滤条件的字段作为分布键。例如，在表dwcjk相关的查询中，字段zqdh存在常量过滤条件“zqdh='000001'”，那么就应当尽量不选择zqdh字段作为分布键。
【建议】在满足前两条原则的情况，尽量选择查询中的关联条件为分布键。当关联条件作为分布键时，Join任务的相关数据都分布在DN本地，将极大减少DN之间的数据流动代价。

父主题： GaussDB(DWS)数据库对象设计规则

上一篇：GaussDB(DWS) Database和Schema设计规则

下一篇：GaussDB(DWS)字段设计规则

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

GaussDB(DWS)表设计规则

选择存储方案

选择分布方案

选择分区方案

选择分布键

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈