分区表对导入操作的性能影响

在GaussDB Kernel内核实现中，分区表数据的插入的处理过程相比非分区表增加分区路由部分的开销，因从整体上分区表场景的数据插入开销主要看成：（1）heap-insert基表插入、（2）partition-routing分区路由两个部分，如图1所示，其中heap基表插入解决tuple入库对应heap表的问题并且该部分普通表和分区表共用，而分区路由部分解决分区路由即tuple元组插入到对应partRel的问题，并且分区路由算法本身作为一级、二级分区共用，不同之处在于二级分区相比一级分区多一层路由操作，对路由算法为两次调用。

图1 普通表&分区表数据插入
点击放大

因此对数据插入优化的侧重点如下：

分区表基表Heap表插入：
1. 算子底噪优化
2. heap数据插入
3. 索引插入build优化（带索引）
分区表分区路由：
1. 路由查找算法逻辑优化
2. 路由底噪优化，包括分区表partRel句柄开启、新增的函数调用逻辑开销
分区路由的性能主要通过大数据量的单条INSERT语句体现，UPDATE场景内部包含了查找对应要更新的元组进行DELETE操作然后再进行INSERT，因此不如单条INSERT语句场景直接。

不同分区类型的路由算法逻辑如表1所示：

表1 路由算法逻辑
分区方式	路由算法复杂度	实现概述说明
范围分区（Range Partition）	O(logN)	基于二分binary-search实现
间隔分区（Interval Partition）	O(logN)	基于二分binary-search实现
哈希分区（Hash-Partition）	O(1)	基于key-partOid哈希表实现
列表分区（List-Partition）	O(1)	基于key-partOid哈希表实现
二级分区（List/List）	O(1) + O(1)	哈希+哈希
二级分区（List/Range）	O(1) + O(1) = O(1)	哈希+二分查找
二级分区（List/Hash）	O(1) + O(1) = O(1)	哈希+哈希
二级分区（Range/List）	O(1) + O(1) = O(1)	二分查找+哈希
二级分区（Range/Range）	O(1) + O(1) = O(1)	二分查找+二分查找
二级分区（Range/Hash）	O(1) + O(1) = O(1)	二分查找+哈希
二级分区（Hash/List）	O(1) + O(1) = O(1)	哈希+哈希
二级分区（Hash/Range）	O(1) + O(1) = O(1)	哈希+二分查找
二级分区（Hash/Hash）	O(1) + O(1) = O(1)	哈希+哈希