最新动态
功能总览
服务公告
- 产品公告
- 产品发布说明
产品介绍
- 图解云数据库GaussDB
- 什么是云数据库GaussDB
- 应用场景
- 常用概念
- 产品优势
- 实例说明
- 数据库实例规格
- 数据库产品类型
- 安全
- 权限管理
- 约束与限制
- GaussDB与其他服务的关系
- 兼容性说明
计费说明
- 计费概述
- 计费项
- 计费模式
- 计费样例
- 变更计费模式
- 续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
快速入门
- 购买并通过界面化工具DAS连接GaussDB实例（推荐）
- 购买并通过gsql连接GaussDB实例
- GaussDB入门实践
用户指南
- 权限管理
  - 创建用户并授权使用GaussDB
  - 自定义策略
- 购买GaussDB实例
- 连接GaussDB实例
  - GaussDB实例连接方式介绍
  - 通过数据管理服务DAS连接实例
  - 通过gsql连接实例
  - 通过Navicat连接实例
  - 通过DBeaver连接实例
- 数据库迁移
  - GaussDB迁移方案总览
  - 使用DRS将Oracle数据库迁移至GaussDB
  - 使用DRS将MySQL数据库迁移到GaussDB
  - 使用DAS的导出和导入功能迁移GaussDB数据
  - 使用copy to/from命令导出导入数据
  - JDBC中使用COPY命令导出导入数据
  - 使用gs_dump和gs_dumpall命令导出数据
  - 使用gs_restore命令导入数据
  - 使用gs_loader工具导入数据
- 使用数据库
  - 数据库使用概述
  - 创建GaussDB数据库
  - 创建GaussDB数据库用户
- 实例管理
  - 查看GaussDB实例总览
  - 设置GaussDB实例安全组规则
  - 绑定和解绑GaussDB实例弹性公网IP
  - 设置GaussDB实例回收站策略
  - 导出GaussDB实例列表
  - 退订GaussDB包周期实例
  - 停止GaussDB实例
  - 启动GaussDB实例
  - 重启GaussDB实例
  - 删除GaussDB按需实例
  - 重建GaussDB实例
  - 停止GaussDB节点
  - 启动GaussDB节点
  - 重启GaussDB节点
- 变更实例
  - 修改GaussDB实例名称
  - 修改GaussDB数据库端口
  - 修改M兼容端口
  - 变更GaussDB实例的CPU和内存规格
  - 只读节点变更
  - 同步数据至单副本实例
  - 查看并修改高级特性
  - 扩容和缩容实例
  - 扩容磁盘
  - 变更部署形态
  - DN主备倒换
- 版本升级
  - 版本升级概述
  - 热补丁升级
  - 就地升级
  - 灰度升级
- 插件管理
  - 插件安装
  - 开启或关闭插件开关
  - 查看拓展功能模块
- 数据备份
  - 备份概述
  - 执行备份
  - 管理备份
- 数据恢复
  - GaussDB数据误操作恢复方案
  - 通过备份文件恢复GaussDB实例
  - 通过备份文件恢复GaussDB库/表
  - 恢复GaussDB实例到指定时间点
  - 恢复GaussDB库/表到指定时间点
- 参数管理
  - 数据库实例支持修改的参数
  - 修改GaussDB实例参数
  - 查看GaussDB实例参数修改历史
  - 导出GaussDB实例参数
  - 创建GaussDB实例参数模板
  - 管理GaussDB实例参数模板
- 监控与告警
  - GaussDB支持的监控指标
  - 查看GaussDB监控指标
  - 查看GaussDB监控大盘
  - 创建GaussDB实例告警规则
  - 事件监控
- 日志与审计
  - 下载GaussDB错误日志和慢日志
  - 下载GaussDB强切日志
  - 在CTS查看GaussDB实例审计日志
  - 对接LTS并查看数据库审计日志
- 配额调整
  - 调整GaussDB云服务资源配额
  - 调整企业项目下的GaussDB资源配额
- SQL诊断
  - 配置SQL限流
- 容灾管理
  - 约束限制
  - 创建容灾任务
  - 查询容灾任务
  - 容灾升主
  - 结束容灾
  - 删除容灾任务
  - 主实例故障后重建灾备任务
  - 容灾主备关系切换
  - 容灾回切
  - 灾备实例容灾演练
  - 主实例日志保持
  - 灾备实例限制说明
- GaussDB任务管理
- GaussDB标签管理
- 重置GaussDB实例管理员密码
开发指南
- 开发指南（分布式_V2.0-8.x）
- 开发指南（集中式_V2.0-8.x）
- 开发指南（分布式_V2.0-3.x）
- 开发指南（集中式_V2.0-3.x）
- 开发指南（分布式_V2.0-2.x）
- 开发指南（集中式_V2.0-2.x）
工具参考
- 工具参考（分布式_V2.0-8.x）
- 工具参考（集中式_V2.0-8.x）
- 工具参考（分布式_V2.0-3.x）
- 工具参考（集中式_V2.0-3.x）
  - gsql
  - gs_loader
- 工具参考（分布式_V2.0-2.x）
- 工具参考（集中式_V2.0-2.x）
  - gsql
  - gs_loader
特性指南
- 特性指南（分布式_V2.0-8.x）
- 特性指南（集中式_V2.0-8.x）
- 特性指南（分布式_V2.0-3.x）
- 特性指南（集中式_V2.0-3.x）
最佳实践
- GaussDB安全配置建议
- 扩缩容最佳实践
性能白皮书
- 测试方法
- 测试数据
API参考
- 使用前必读
- API概览
- 如何调用API
- API（推荐）
- 历史API
- 权限策略和授权项
  - 策略及授权项说明
  - GaussDB授权分类
- 附录
SDK参考
- SDK概述
场景代码示例
常见问题
- 产品咨询
- GaussDB资源冻结/解冻/释放/删除/退订
- 资源及磁盘管理
- 数据库连接
- 数据库存储
  1. 数据超过了GaussDB实例的最大存储容量怎么办
  2. 如何查看GaussDB的存储空间使用情况
- 数据库基本使用
- 备份与恢复
- 数据库监控
  1. GaussDB实例的哪些监控指标需要重点关注
  2. GaussDB实例内存使用率指标的计算方法
- 扩容及规格变更
  1. GaussDB实例在扩容和规格变更期间是否一直可用
- 数据库参数修改
- 日志管理
  1. 如何查看GaussDB执行过的所有SQL日志
  2. 如何查看GaussDB数据库的死锁日志
- 网络安全
  1. 如何防止任意源连接GaussDB数据库
  2. 将根证书导入Windows/Linux操作系统
兼容性参考
- 与Oracle兼容性参考（分布式）
- 与Oracle兼容性参考（集中式）
- 与MySQL兼容性参考（分布式）
- 与MySQL兼容性参考（集中式）
视频帮助
文档下载
通用参考
- 产品术语
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 云数据库 GaussDB/ 开发指南（分布式_V2.0-3.x）/ 开发设计建议/ 数据库对象设计/ 表设计

表设计

更新时间：2024-11-01 GMT+08:00

查看PDF

GaussDB是分布式架构。数据分布在各个DN上。总体上讲，良好的表设计需要遵循以下原则：

将表数据均匀分布在各个DN上。数据均匀分布，可以防止数据在部分DN上集中分布，从而导致因存储倾斜造成集群有效容量下降。通过选择合适的分布列，可以避免数据倾斜。
将表的扫描压力均匀分散在各个DN上。避免扫描压力集中在部分DN上，而导致性能瓶颈。例如，在事实表上使用等值过滤条件时，将会导致扫描压力不均匀。
减少需要扫描的数据量。通过分区表的剪枝机制可以大幅减少数据的扫描量。
尽量减少随机I/O。通过聚簇可以实现热数据的连续存储，将随机I/O转换为连续I/O，从而减少扫描的I/O代价。
尽量避免数据shuffle。shuffle，是指在物理上，数据从一个节点，传输到另一个节点。shuffle占用了大量宝贵的网络资源，减少不必要的数据shuffle，可以减少网络压力，使数据的处理本地化，以提高集群的性能和可支持的并发度。通过对关联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。

选择分布方案

表的分布方式的选择如表1所示。

表1 表的分布方式及使用场景
分布方式	描述	适用场景
Hash	表数据通过Hash方式散列到集群中的所有DN上。	数据量较大的事实表。
Replication	集群中每一个DN都有一份全量表数据。	维度表、数据量较小的事实表。
Range	表数据对指定列按照范围进行映射，分布到对应DN。	用户需要自定义分布规则的场景。
List	表数据对指定列按照具体值进行映射，分布到对应DN。	用户需要自定义分布规则的场景。

典型的分布表定义如下：

     
      
        
        --定义一个表，表中每行存在所有DN中。
CREATE TABLE warehouse_d1
(
    W_WAREHOUSE_SK            INTEGER               NOT NULL,
    W_WAREHOUSE_ID            CHAR(16)              NOT NULL,
    W_WAREHOUSE_NAME          VARCHAR(20)                   ,
    W_WAREHOUSE_SQ_FT         INTEGER                       ,
    W_STREET_NUMBER           CHAR(10)                      ,
    W_STREET_NAME             VARCHAR(60)                   ,
    W_STREET_TYPE             CHAR(15)                      ,
    W_SUITE_NUMBER            CHAR(10)                      ,
    W_CITY                    VARCHAR(60)                   ,
    W_COUNTY                  VARCHAR(30)                   ,
    W_STATE                   CHAR(2)                       ,
    W_ZIP                     CHAR(10)                      ,
    W_COUNTRY                 VARCHAR(20)                   ,
    W_GMT_OFFSET              DECIMAL(5,2)
)DISTRIBUTE BY REPLICATION;

--定义一个表，使用HASH分布。
CREATE TABLE warehouse_d2
(
    W_WAREHOUSE_SK            INTEGER               NOT NULL,
    W_WAREHOUSE_ID            CHAR(16)              NOT NULL,
    W_WAREHOUSE_NAME          VARCHAR(20)                   ,
    W_WAREHOUSE_SQ_FT         INTEGER                       ,
    W_STREET_NUMBER           CHAR(10)                      ,
    W_STREET_NAME             VARCHAR(60)                   ,
    W_STREET_TYPE             CHAR(15)                      ,
    W_SUITE_NUMBER            CHAR(10)                      ,
    W_CITY                    VARCHAR(60)                   ,
    W_COUNTY                  VARCHAR(30)                   ,
    W_STATE                   CHAR(2)                       ,
    W_ZIP                     CHAR(10)                      ,
    W_COUNTRY                 VARCHAR(20)                   ,
    W_GMT_OFFSET              DECIMAL(5,2),
    CONSTRAINT W_CONSTR_KEY3 UNIQUE(W_WAREHOUSE_SK)
)DISTRIBUTE BY HASH(W_WAREHOUSE_SK);

--定义一个表，使用RANGE分布
CREATE TABLE warehouse_d3
(
W_WAREHOUSE_SK            INTEGER               NOT NULL,
W_WAREHOUSE_ID            CHAR(16)              NOT NULL,
W_WAREHOUSE_NAME          VARCHAR(20)                   ,
W_WAREHOUSE_SQ_FT         INTEGER                       ,
W_STREET_NUMBER           CHAR(10)                      ,
W_STREET_NAME             VARCHAR(60)                   ,
W_STREET_TYPE             CHAR(15)                      ,
W_SUITE_NUMBER            CHAR(10)                      ,
W_CITY                    VARCHAR(60)                   ,
W_COUNTY                  VARCHAR(30)                   ,
W_STATE                   CHAR(2)                       ,
W_ZIP                     CHAR(10)                      ,
W_COUNTRY                 VARCHAR(20)                   ,
W_GMT_OFFSET              DECIMAL(5,2)
)DISTRIBUTE BY RANGE(W_WAREHOUSE_ID)
(
   SLICE s1 VALUES LESS THAN (10) DATANODE dn1,
   SLICE s2 VALUES LESS THAN (20) DATANODE dn2,
   SLICE s3 VALUES LESS THAN (30) DATANODE dn3,
   SLICE s4 VALUES LESS THAN (MAXVALUE) DATANODE dn4
);
 
--定义一个表，使用LIST分布
CREATE TABLE warehouse_d4
(
W_WAREHOUSE_SK            INTEGER               NOT NULL,
W_WAREHOUSE_ID            CHAR(16)              NOT NULL,
W_WAREHOUSE_NAME          VARCHAR(20)                   ,
W_WAREHOUSE_SQ_FT         INTEGER                       ,
W_STREET_NUMBER           CHAR(10)                      ,
W_STREET_NAME             VARCHAR(60)                   ,
W_STREET_TYPE             CHAR(15)                      ,
W_SUITE_NUMBER            CHAR(10)                      ,
W_CITY                    VARCHAR(60)                   ,
W_COUNTY                  VARCHAR(30)                   ,
W_STATE                   CHAR(2)                       ,
W_ZIP                     CHAR(10)                      ,
W_COUNTRY                 VARCHAR(20)                   ,
W_GMT_OFFSET              DECIMAL(5,2)
)DISTRIBUTE BY LIST(W_COUNTRY)
(
    SLICE s1 VALUES ('USA') DATANODE dn1,
    SLICE s2 VALUES ('CANADA') DATANODE dn2,
    SLICE s3 VALUES ('UK') DATANODE dn3,
    SLICE s4 VALUES (DEFAULT) DATANODE dn4
);

       

     
    

更多的表分布语法信息请参见CREATE TABLE。

选择分布键

分布表的分布键选择至关重要，如果分布键选择不当，可能会导致数据倾斜，从而导致查询时，I/O负载集中在部分DN上，影响整体查询性能。因此，在确定分布表的分布策略之后，需要对表数据进行倾斜性检查，以确保数据的均匀分布。分布键的选择一般需要遵循以下原则：

选作分布键的字段取值应该比较离散，以便数据能在各个DN上均匀分布。当单个字段无法满足离散条件时，可以考虑使用多个字段一起作为分布键。一般情况下，可以考虑选择表的主键作为分布键。例如，在人员信息表中选择证件号码作为分布键。
在满足第一条原则的情况下，尽量不要选取在查询中存在常量过滤条件的字段作为分布键。例如，在表dwcjk相关的查询中，字段zqdh存在常量过滤条件“zqdh='000001'”，那么尽量不选择zqdh字段作为分布键。
在满足前两条原则的情况，尽量选择查询中的关联条件为分布键。当关联条件作为分布键时，join任务的相关数据都分布在DN本地，将极大减少DN之间的数据流动代价。

选择分区方案

当表中的数据量很大时，应当对表进行分区，一般需要遵循以下原则：

使用具有明显区间性的字段进行分区，比如日期、区域等字段上建立分区。
分区名称应当体现分区的数据特征。例如，关键字+区间特征。
将分区上边界的分区值定义为MAXVALUE，以防可能出现的数据溢出。

表2 表的分区方式及使用场景
分区方式	描述
Range	表数据通过范围进行分区。
List	表数据通过指定列按照具体值进行分区。
Hash	表数据通过Hash散列方式进行分区。

典型的分区表定义如下：

     
      
        
        --创建Range分区表
CREATE TABLE staffS_p1
(
  staff_ID       NUMBER(6) not null,
  FIRST_NAME     VARCHAR2(20),
  LAST_NAME      VARCHAR2(25),
  EMAIL          VARCHAR2(25),
  PHONE_NUMBER   VARCHAR2(20),
  HIRE_DATE      DATE,
  employment_ID  VARCHAR2(10),
  SALARY         NUMBER(8,2),
  COMMISSION_PCT NUMBER(4,2),
  MANAGER_ID     NUMBER(6),
  section_ID     NUMBER(4)
)
PARTITION BY RANGE (HIRE_DATE)
( 
   PARTITION HIRE_19950501 VALUES LESS THAN ('1995-05-01 00:00:00'),
   PARTITION HIRE_19950502 VALUES LESS THAN ('1995-05-02 00:00:00'),
   PARTITION HIRE_maxvalue VALUES LESS THAN (MAXVALUE)
);

--创建List分区表
CREATE TABLE test_list (col1 int, col2 int)
partition by list(col1)
(
partition p1 values (2000),
partition p2 values (3000),
partition p3 values (4000),
partition p4 values (5000)
);

--创建Hash分区表
CREATE TABLE test_hash (col1 int, col2 int)
partition by hash(col1)
(
partition p1,
partition p2
);

       

     
    

更多的表分区语法信息请参见CREATE TABLE PARTITION。

父主题： 数据库对象设计

上一篇：Database和Schema设计

下一篇：字段设计

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

表设计

选择分布方案

选择分布键

选择分区方案

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈