正态随机分布_如何调整GaussDB(DWS)分布列？-华为云

如何调整GaussDB(DWS)分布列？

针对分布不均匀的表，尽可能通过调整分布列，以减少数据倾斜，避免带来潜在的数据库性能问题。选择合适的分布列 Hash分布表的分布列选取至关重要，需要满足以下基本原则：列值应比较离散，以便数据能够均匀分布到各个DN。例如，考虑选择表的主键为分布列，如在人员信息表中选择身份证号码为分布列。在满足第一

来自：帮助中心

查看更多 →
案例：选择合适的分布列

则执行计划将存在“Streaming”，导致DN之间存在较大通信数据量，如图1所示。图1 选择合适的分布列案例（一）如果将a作为t1的分布列，将b作为t2的分布列： 1 2 CREATE TABLE t1 (a int, b int) DISTRIBUTE BY HASH (a);

来自：帮助中心

查看更多 →
分布式备机读参数

on：表示该session开启分布式备机读功能。 off：表示该session不开启分布式备机读功能。默认值：off 设置方式：该参数属于USERSET类型参数，只能在session级别设置（set enable_standby_read = on），不支持gs_guc set/reload方式进行设置。

来自：帮助中心

查看更多 →
分布式备机读参数

分布式备机读参数 enable_standby_read 参数说明：控制session开启备机读功能。该参数属于USERSET类型参数，请参考表1中对应设置方法进行设置。取值范围：布尔型 on表示该session开启分布式备机读功能。 off表示该session不开启分布式备机读功能。

来自：帮助中心

查看更多 →
分布式Scan HBase表

分布式Scan HBase表场景说明用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase，使用hbaseRDD方法以特定的规则扫描HBase表。数据规划使用操作Avro格式数据章节中创建的hbase数据表。开发思路设置scan的规则，例如：setCaching。

来自：帮助中心

查看更多 →
分布式Scan HBase表

分布式Scan HBase表场景说明用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase，使用hbaseRDD方法以特定的规则扫描HBase表。数据规划使用操作Avro格式数据章节中创建的HBase数据表。开发思路设置scan的规则，例如：setCaching。

来自：帮助中心

查看更多 →
分布式Scan HBase表

分布式Scan HBase表场景说明用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase，使用hbaseRDD方法以特定的规则扫描HBase表。数据规划使用操作Avro格式数据章节中创建的HBase数据表。开发思路设置scan的规则，例如：setCaching。

来自：帮助中心

查看更多 →
扩容实例分片（分布式）

扩容实例分片（分布式）操作场景随着实例部署时间及业务的增长，数据库在运行性能及存储上逐渐会达到瓶颈。此时，需要通过增加主机来提升实例的性能及存储能力。 GaussDB 分布式独立部署形态支持扩容分片操作。扩容时长与业务数据量有关，默认扩容操作超时时间为7天，扩容中实例可正常使用

来自：帮助中心

查看更多 →
案例：选择合适的分布列

则执行计划将存在“Streaming”，导致DN之间存在较大通信数据量，如图1所示。图1 选择合适的分布列案例（一）如果将a作为t1的分布列，将b作为t2的分布列： 1 2 CREATE TABLE t1 (a int, b int) DISTRIBUTE BY HASH (a);

来自：帮助中心

查看更多 →
异构数据库迁移至GaussDB分布式后select查询无order by数据结果集不一致

异构数据库迁移至GaussDB分布式后select查询无order by数据结果集不一致问题现象图1 查询SQL中无order by 问题原因 GaussDB 分布式数据中，数据是按照分布键均匀存储在各DN节点上，select查询无order by时，数据随机从DN节点上读取，因此数据结果无法保证一致。

来自：帮助中心

查看更多 →
如何设计宽表主键

userid='abc' AND 123<orderid<456 ORDER BY orderid DESC; 由于表字段原始顺序的倒序性能比正序性能差，如果大部分数据是倒序场景，可以体现在主键设计上，主键设计为[userid][orderid DESC]。设计主键应考虑哪些因素需要考虑主键列值的长度和主键列的个数。

来自：帮助中心

查看更多 →
缩容实例分片（分布式）

缩容实例分片（分布式）操作场景实例进行读写分离或者业务冗余数据清理等操作后DN节点使用率会下降，此时可通过分片缩容避免成本浪费。GaussDB分布式独立部署形态支持分片缩容操作。注意事项缩容时长与业务数据量有关，默认缩容操作超时时间为7天，缩容中实例可正常使用，但不允许进

来自：帮助中心

查看更多 →
ClickHouse数据分布设计

ClickHouse数据分布设计 Shard和副本概念介绍图1 ClickHouse集群架构图从横向来看ClickHouse数据库集群，所有数据都会平均分布到多个shard分片中进行保存，数据平均分布后，保证了查询的高度并行性，以提升数据的查询性能。从纵向来看，每个shar

来自：帮助中心

查看更多 →
配置HDFS同分布策略（Colocation）

配置HDFS同分布策略（Colocation）功能简介同分布（Colocation）功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性，将那些需进行关联操作的文件存放在相同数据节点上，在进行关联操作计算时避免了到别的数据节点上获取数据，大大降低网络带宽的占用。

来自：帮助中心

查看更多 →
分布式Scan HBase表

分布式Scan HBase表场景说明用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase，使用hbaseRDD方法以特定的规则扫描HBase表。数据规划使用操作Avro格式数据章节中创建的hbase数据表。开发思路设置scan的规则，例如：setCaching。

来自：帮助中心

查看更多 →
配置HDFS同分布策略（Colocation）

配置HDFS同分布策略（Colocation）功能简介同分布（Colocation）功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性，将那些需进行关联操作的文件存放在相同数据节点上，在进行关联操作计算时避免了到别的数据节点上获取数据，大大降低网络带宽的占用。

来自：帮助中心

查看更多 →
配置HDFS同分布策略（Colocation）

配置HDFS同分布策略（Colocation）功能简介同分布（Colocation）功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性，将那些需进行关联操作的文件存放在相同数据节点上，在进行关联操作计算时避免了到别的数据节点上获取数据，大大降低网络带宽的占用。

来自：帮助中心

查看更多 →
配置HDFS同分布策略（Colocation）

配置HDFS同分布策略（Colocation）功能简介同分布（Colocation）功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性，将那些需进行关联操作的文件存放在相同数据节点上，在进行关联操作计算时避免了到别的数据节点上获取数据，大大降低网络带宽的占用。

来自：帮助中心

查看更多 →
案例：选择合适的分布列

案例：选择合适的分布列分布列用于将数据分布到不同的节点上，划分均衡可以避免数据倾斜。在进行关联查询时，尽量选择查询中的关联条件作为分布键。当关联条件作为分布键时，相关数据都分布在DN本地，将减少DN之间的数据流动代价，提升查询速度。优化前将a作为t1和t2的分布列，表定义如下：

来自：帮助中心

查看更多 →
rand

rand函数用于返回大于或等于0且小于1的平均分布随机数。命令格式 rand(INT seed) 参数说明表1 参数说明参数是否必选参数类型说明 seed 否 INT类型。参数seed的格式包括浮点数格式、整数格式、字符串格式。如果指定种子seed，在相同运行环境下，将会得到一个稳定的随机数序列。返回值说明

来自：帮助中心

查看更多 →
rand

rand函数用于返回大于或等于0且小于1的平均分布随机数。命令格式 rand(INT seed) 参数说明表1 参数说明参数是否必选参数类型说明 seed 否 INT类型。参数seed的格式包括浮点数格式、整数格式、字符串格式。如果指定种子seed，在相同运行环境下，将会得到一个稳定的随机数序列。返回值说明

来自：帮助中心

查看更多 →