文档首页> > 开发指南> 教程:调优表设计> 步骤4:选择分布方式

步骤4:选择分布方式

分享
更新时间: 2019-05-16 11:30

DWS是采用Shared-nothing架构的MPP(Massive Parallel Processor,大规模并发处理)系统,采用水平分布的方式,将业务数据表的元组按合适的分布策略分散存储在所有的DN。当前支持复制(Replication)和散列(Hash)两种用户表分布策略。

  • Replication方式:在每一个DN上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销,同时减少了plan segment(每个plan segment都会起对应的线程);缺点是每个DN都保留了表的完整数据,造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。
  • Hash方式:采用这种分布方式,需要为用户表指定一个分布列(distribute key)。当插入一条记录时,系统会根据分布列的值进行hash运算后,将数据存储在对应的DN中。对于Hash分布表,在读/写数据时可以利用各个节点的IO资源,大大提升表的读/写速度。一般情况下大表(1000000条记录以上)定义为Hash表。

依据步骤2:测试初始表结构下的系统性能并建立基线中所基线的各表大小,分布方式设置如下:

表名

行数

分布方式

Store_Sales

287997024

Hash

Date_Dim

73049

Replication

Store

402

Replication

Item

204000

Replication

Time_Dim

86400

Replication

Promotion

1000

Replication

Customer_Demographics

1920800

Hash

Customer_Address

1000000

Hash

Household_Demographics

7200

Replication

Customer

1981703

Hash

Income_Band

20

Replication

如果您喜欢这篇文档,您还可以:

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区