文档首页/ 数据仓库服务 DWS/ SQL语法参考/ SQL语法参考(9.1.0.x)/ DDL语法/ 表和外部数据源/ CREATE TABLE PARTITION

更新时间：2026-07-15 GMT+08:00

CREATE TABLE PARTITION

功能描述

创建分区表。逻辑上的一张表根据某种方案分成几张物理块进行存储，这张逻辑上的表称之为分区表，物理块称之为分区。分区表是一张逻辑表，不存储数据，数据实际是存储在分区上的。

常见的分区策略都是按照某一列或者某几列定义一些数据分布范围，然后每个分区承载一个范围的数据，这些列称之为分区键。

目前DWS行存表、列存表支持的分区类型包括范围分区和列表分区。

范围分区（Range Partitioning）
根据表的一列或者多列，将要插入表的记录分为若干个范围，这些范围在不同的分区里没有重叠。为每个范围创建一个分区，用来存储相应的数据。
- 核心特征：数据按连续区间分布，常用于有序且按范围检索的场景。
- 适用场景：分区键具有线性增长或连续区间特征，数据查询常围绕 “某一范围” 展开，且新数据会自然落入新的区间。例如按时间范围进行分区的订单数据，按数值范围分区的用户等级数据等。
- 范围分区策略是指记录插入分区的方式，根据分区键值将记录映射到已创建的某个分区上，如果可以映射到已创建的某一分区上，则把记录插入到对应的分区上，否则给出报错和提示信息，这是最常用的分区策略。目前范围分区仅支持范围分区策略。
列表分区（List Partitioning）
根据表的一列，将要插入表的记录通过每一个分区中出现的键值划分到对应的分区中，这些键值在不同的分区里没有重叠。为每组键值创建一个分区，用来存储相应的数据。列表分区仅8.1.3及以上集群版本支持。
- 核心特征：数据按离散的枚举值划分，常用于固定分类或高频过滤的维度。
- 适用场景：分区键值是固定且离散的类别，数据查询常围绕 “某一类别” 展开，键值不会无规律新增。例如按省份分区的用户信息表，每个省份对应一个分区。
- 列表分区策略是根据分区键值将记录映射到已创建的某个分区上，如果可以映射到已创建的某一分区上，则把记录插入到对应的分区上，否则给出报错和提示信息。

范围分区和列表分区的核心差异

表1 范围分区和列表分区
维度	范围分区（Range）	列表分区（List）
数据分布	连续区间（时间、数值）	离散枚举（分类、状态）
查询优化	范围过滤（BETWEEN, >, <）	精确匹配（=, IN）
管理场景	定期增删区间（如按月份滚动）	固定分类维护（如地区、类型）
典型用例	日志、时间序列、数值归档	地域划分、状态隔离、多租户数据

分区的优势

某些类型的查询性能可以得到极大提升，特别是表中访问率较高的行位于一个单独分区或少数几个分区上的情况下。分区可以减少数据的搜索空间，提高数据访问效率。
当查询或更新一个分区的大部分记录时，连续扫描对应分区而不是访问整个表可以获得巨大的性能提升。
如果需要大量加载或者删除的记录位于单独的分区上，则可以通过直接读取或删除那个分区以获得巨大的性能提升，同时还可以避免由于大量DELETE导致的VACUUM超载（仅范围分区）。
通常情况下，单个DN数据量超过1000万行的场景，建议将表规划为分区表，建立完分区后，保持单DN上，单个分区的数据量控制在100万~1000万之间。

注意事项

单表的分区数最大为32767个，所有分区的边界值个数最大为32767个。建议不超过1000个。
有限地支持唯一约束和主键约束，即唯一约束和主键约束的约束键必须包含所有分区键。

语法格式

     CREATE TABLE [ IF NOT EXISTS ] partition_table_name
( [ 
    { column_name data_type [ COLLATE collation ] [ column_constraint [ ... ] ]
    | table_constraint
    | LIKE source_table [ like_option [...] ] }[, ... ]
] )
    [ WITH ( {storage_parameter = value} [, ... ] ) ]
    [ COMPRESS | NOCOMPRESS ]
    [ DISTRIBUTE BY { REPLICATION | ROUNDROBIN | { [ HASH ] ( column_name ) } } ]
    [ TO { GROUP groupname | NODE ( nodename [, ... ] ) } ]
    PARTITION BY { 
        {VALUES (partition_key)} |
        {RANGE (partition_key) ( partition_less_than_item [, ... ] )} |
        {RANGE (partition_key) ( partition_start_end_item [, ... ] )} |
        {LIST (partition_key) (list_partition_item [, ...])}
    } [ { ENABLE | DISABLE } ROW MOVEMENT ]; 
 
 
  

CREATE TABLE PARTITION主句参数说明

表2 CREATE TABLE PARTITION主句参数说明

参数

描述

取值范围或示例

IF NOT EXISTS

如果已经存在相同名称的表，不会抛出一个错误，而会发出一个通知，告知表关系已存在。

partition_table_name

分区表的名称。

字符串，要符合标识符的命名规范。参见标识符命名规范。

column_name

新表中要创建的列名。

字符串，要符合标识符的命名规范。参见标识符命名规范。

data_type

列的数据类型。

COLLATE collation

COLLATE子句指定列的排序规则，仅支持char、varchar、text、nchar、nvarchar这些数据类型的排序规则，排序规则主要影响查询结果的排列顺序，例如SELECT ... ORDER BY后展示的优先级。如果没有指定，则使用默认的排序规则C（即严格区分大小写）。

常见的排序规则有：

C：基于二进制编码的字节顺序进行排序，完全区分大小写、重音和特殊字符（严格按ASCII 码值比较）。
case_insensitive：不区分大小写，8.1.3.x及以上版本支持。
en_US.utf8：美式英语UTF8编码，不区分大小写。

DWS支持的排序规则可通过系统表 PG_COLLATION 查询：

     SELECT * FROM pg_collation;

查看当前数据库默认的排序规则可使用如下语句：

     SELECT pg_database.datcollate AS current_collation FROM pg_catalog.pg_database WHERE pg_database.datname = pg_catalog.current_database();

例如，对某列的取值采用不区分大小写排序规则。

     CREATE TABLE t1 (a text collate case_insensitive);
INSERT INTO t1 values('a'),('A'),('b'),('B');
SELECT a, a='a' FROM t1;

查询时结果如下，表示A和a等价。

点击放大

CONSTRAINT constraint_name

列约束或表约束的名字。可选的约束子句用于声明约束，新行或者更新的行必须满足这些约束才能成功插入或更新。

定义约束有两种方法：

列约束：作为一个列定义的一部分，仅影响该列。
表约束：不和某个列绑在一起，可以作用于多个列。

支持的约束参见表3。

LIKE source_table [ like_option ... ]

LIKE子句声明一个表，新表自动从声明的表中继承所有列名及其数据类型和非空约束。

使用约束参见LIKE参数使用说明。

WITH

这个子句为表或索引指定一个可选的存储参数。

支持的WITH参数参见表4。

COMPRESS / NOCOMPRESS

创建一个新表时，需要在创建表语句中指定关键字COMPRESS，这样，当对该表进行批量插入时就会触发压缩特性。该特性会在页范围内扫描所有元组数据，生成字典、压缩元组数据并进行存储。指定关键字NOCOMPRESS则不对表进行压缩。

缺省值为NOCOMPRESS，即不对元组数据进行压缩。

DISTRIBUTE BY

指定表如何在节点之间分布或者复制。

REPLICATION：表的每一行存储在所有数据节点( DN )中，即每个数据节点都有完整的表数据。
ROUNDROBIN：表的每一行被轮询发送给各个DN，因此数据会被均匀地分布在各个DN中。（ROUNDROBIN仅8.1.2及以上版本支持）
HASH (column_name ) ：对指定的列进行Hash，通过映射，把数据分布到指定DN。

其他详细使用约束参见DISTRIBUTE BY参数使用说明。

注意：

当指定DISTRIBUTE BY HASH (column_name)参数时，创建主键和唯一索引必须包含“column_name”列。
当被参照表指定DISTRIBUTE BY HASH (column_name)参数时，参照表的外键必须包含“column_name”列。

TO { GROUP groupname | NODE ( nodename [, ... ] ) }

TO GROUP指定创建表所在的Node Group，目前不支持hdfs表使用。TO NODE主要供内部扩容工具使用，一般用户不建议使用。

{ ENABLE | DISABLE } ROW MOVEMENT

行迁移开关，当更新表中某行分区键值时，如果新值属于其他分区，则会根据开关给出报错信息或者将该行数据迁移到对应的分区。

ENABLE：打开行迁移功能，适用于频繁更新分区键的场景。
DISABLE：关闭行迁移功能，适用于严格禁止数据跨分区更新的场景，更新分区键会报错。

默认为DISABLE，关闭。

使用建议：

启用条件：当业务需要通过更新操作改变分区键值，且性能影响可接受时使用。
性能考量：ENABLE ROW MOVEMENT会增加更新操作的开销，特别是在高并发场景下需谨慎使用。
替代方案：若需频繁调整分区归属，可考虑先删除原行再插入新行，或使用分区交换（Exchange Partition）操作。

注意：

开启ROW MOVEMENT则允许跨分区更新，但此时如果有SELECT FOR UPDATE查询该分区表并发执行，存在查询结果瞬时不一致的可能性，需要谨慎使用。

举例，某分区表的日期列（分区键），按季度进行分区，分为分区p_2023q1和p_2023q2，某一行的“2023-02-15”原属于第一季度的分区p_2023q1，当更新该值为“2023-05-15”后，对应的这行数据，会根据ROW MOVEMENT开关是否打开而决定是否行数据迁移：

ENABLE：打开行迁移功能，则该数据迁移到新分区p_2023q2。
DISABLE：关闭行迁移功能，则系统会报错。

详细示例参见示例：开启和关闭行迁移功能ROW MOVEMENT

列约束CONSTRAINT constraint_name参数说明

     { NOT NULL |
  NULL | 
  CHECK ( expression ) | 
  DEFAULT default_expr | 
  UNIQUE [ NULLS [NOT] DISTINCT | NULLS IGNORE ] index_parameters | 
  PRIMARY KEY index_parameters }
[ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ]
 
 
  

表3 CONSTRAINT constraint_name参数说明

参数

描述

取值范围或示例

NOT NULL

列值不允许为NULL。

NULL

列值允许NULL，这是默认值。该子句只是为了和非标准SQL数据库兼容，不建议使用。

CHECK (condition) [ NO INHERIT ]

CHECK约束声明一个布尔表达式，每次要插入的新行或者要更新的行的新值必须使表达式结果为真或未知才能成功，否则会报错并且执行失败。

声明为列约束的检查约束应该只引用该字段的数值，而在表约束里出现的表达式可以引用多个字段。

用NO INHERIT标记的约束将不会传递到子表中去。

单个字段约束:

价格必须为正数：

     CREATE TABLE products (
    product_id INT,
    price DECIMAL(10,2) CHECK (price > 0), 
    discount DECIMAL(3,2) );

插入一条价格为负数的数据：

     INSERT INTO products (product_id, price, discount) VALUES (2, -10.00, 1.1);

违反约束，则报错，插入不成功。

     ERROR:  dn_6003_6004: new row for relation "products" violates check constraint "products_price_check"

表约束（约束多个字段）：

创建一个库存表，分两个字段，可用量和预定量，且可用量必须大于等于预定量：

     CREATE TABLE inventory (
    item_id INT PRIMARY KEY,
    quantity_on_hand INT,
    quantity_reserved INT,
    CHECK (quantity_on_hand >= quantity_reserved));
 
 
  

DEFAULT default_expr

DEFAULT子句给字段指定缺省值。该数值可以是任何不含变量的表达式(不允许使用子查询和对本表中的其他字段的交叉引用)。缺省表达式的数据类型必须和字段类型匹配。

缺省表达式将被用于任何未声明该字段数值的插入操作。若未显式指定DEFAULT，则默认值为NULL。

UNIQUE [ NULLS [NOT] DISTINCT | NULLS IGNORE ] index_parameters

UNIQUE [ NULLS [NOT] DISTINCT | NULLS IGNORE ] ( column_name [, ... ] ) index_parameters

UNIQUE约束表示表里的一个字段或多个字段的组合必须在全表范围内唯一。

其中[ NULLS [ NOT ] DISTINCT | NULLS IGNORE ]字段用来指定Unique唯一索引中索引列NULL值的处理方式。

默认取值：该参数默认缺省，即NULL值可重复插入。

在对插入的新数据和表中原始数据进行列的等值比较时，对于NULL值有以下三种处理方式：

NULLS DISTINCT：将每个NULL值视为不同的值，即允许NULL值重复插入。
NULLS NOT DISTINCT：将所有NULL值视为相同的值，即索引中只保留一个NULL值条目，不允许NULL值重复插入，只有非NULL值且与原索引列中已有数据不相等的数据可插入。
NULLS IGNORE：在等值比较时跳过NULL值。若索引列全为NULL，则NULL值可重复插入；部分索引列为NULL，只有非NULL值不相等，才可成功插入数据。

三种处理方式具体的行为如表6所示。

注意：

如果没有声明DISTRIBUTE BY REPLICATION，则唯一约束的列集合中必须包含分布列。

PRIMARY KEY index_parameters

PRIMARY KEY ( column_name [, ... ] ) index_parameters

主键约束声明表中的一个或者多个字段只能包含唯一的非NULL值。

一个表只能声明一个主键。

注意：

如果没有声明DISTRIBUTE BY REPLICATION，则主键约束的列集合中必须包含分布列。

DEFERRABLE | NOT DEFERRABLE

设置该约束是否可延迟。分区表不支持该参数，DEFERRABLE仅用于非分区表。一个不可延迟的约束将在每条命令之后马上检查。可延迟约束可以延迟到事务结尾使用SET CONSTRAINTS命令检查。缺省是NOT DEFERRABLE。目前，行存的UNIQUE约束和主键约束可以接受这个子句。所有其他约束类型都是不可延迟的。

INITIALLY IMMEDIATE | INITIALLY DEFERRED

如果约束是可延迟的，则这个子句声明检查约束的缺省时间。

如果约束是INITIALLY IMMEDIATE（缺省），则在每条语句执行之后就立即检查它；
如果约束是INITIALLY DEFERRED ，则只有在事务结尾才检查它。

约束检查的时间可以用SET CONSTRAINTS命令修改。

表约束table_constraint参数说明

表约束table_constraint，参数解释同列约束相似不再赘述，参见列约束CONSTRAINT constraint_name参数说明。

     { CHECK ( expression ) | 
  UNIQUE [ NULLS [NOT] DISTINCT | NULLS IGNORE ] ( column_name [, ... ] ) index_parameters | 
  PRIMARY KEY ( column_name [, ... ] ) index_parameters}
[ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ]

LIKE参数使用说明

like选项like_option：

     { INCLUDING | EXCLUDING } { DEFAULTS | CONSTRAINTS | INDEXES | STORAGE | COMMENTS | RELOPTIONS | DISTRIBUTION | ALL }

新表与原来的表之间在创建动作完毕之后是完全无关的。在源表做的任何修改都不会传播到新表中，并且也不可能在扫描源表的时候包含新表的数据。

字段缺省表达式只有在声明了INCLUDING DEFAULTS之后才会包含进来。缺省是不包含缺省表达式的，即新表中所有字段的缺省值都是NULL。

非空约束将总是复制到新表中，CHECK约束则仅在指定了INCLUDING CONSTRAINTS的时候才复制，而其他类型的约束则永远也不会被复制。此规则同时适用于表约束和列约束。

被复制的列和约束并不使用相同的名字进行融合。如果明确指定了相同的名字或者在另外一个LIKE子句中，将会报错。

如果指定了INCLUDING INDEXES，则源表上的索引也将在新表上创建，默认不建立索引。
如果指定了INCLUDING STORAGE，则拷贝列的STORAGE设置也将被拷贝，默认情况下不包含STORAGE设置。
如果指定了INCLUDING COMMENTS，则源表列、约束和索引的注释也会被拷贝过来。默认情况下，不拷贝源表的注释。
如果指定了INCLUDING RELOPTIONS，则源表的存储参数（即源表的WITH子句）也将拷贝至新表。默认情况下，不拷贝源表的存储参数。
如果指定了INCLUDING DISTRIBUTION，则新表将拷贝源表的分布信息，包括分布类型和分布列，同时新表将不能再使用DISTRIBUTE BY子句。默认情况下，不拷贝源表的分布信息。
INCLUDING ALL是INCLUDING DEFAULTS INCLUDING CONSTRAINTS INCLUDING INDEXES INCLUDING STORAGE INCLUDING COMMENTS INCLUDING RELOPTIONS INCLUDING DISTRIBUTION的简写形式。

WITH子句参数说明

表4 WITH参数说明
参数	描述	取值范围
FILLFACTOR	一个表的填充因子（fillfactor）是一个介于10和100之间的百分数。100（完全填充）是默认值。如果指定了较小的填充因子，INSERT操作仅按照填充因子指定的百分率填充表页。每个页上的剩余空间将用于在该页上更新行，这就使得UPDATE有机会在同一页上放置同一条记录的新版本，这比把新版本放置在其他页上更有效。对于一个从不更新的表将填充因子设为100是优良选择，但是对于频繁更新的表，选择较小的填充因子则更加合适。该参数对于列存表没有意义。	10~100
ORIENTATION	决定了数据的存储方式。注意： orientation不支持修改。	COLUMN：表的数据将以列式存储。 ROW（缺省值）：表的数据将以行式存储。 ORC：表的数据将以ORC格式存储（仅HDFS表）。
COMPRESSION	该参数仅列存表支持，有效值为：LOW、MIDDLE或HIGH。默认值为LOW。说明：暂不支持行存表压缩功能。	-
MAX_BATCHROW	指定了在数据加载过程中一个存储单元可以容纳记录的最大数目。该参数只对列存表有效。	10000~60000 默认值：60000
PARTIAL_CLUSTER_ROWS	指定了在数据加载过程中进行局部聚簇存储的记录数目。该参数只对列存表有效。	其有效值为大于等于10万。此值是MAX_BATCHROW的倍数。
enable_delta	指定列存表是否开启delta表。该参数只对列存表有效。不推荐使用列存带Delta表，否则会出现由于来不及merge而导致的磁盘膨胀以及性能劣化等问题。	默认值：off
DELTAROW_THRESHOLD	预留参数。该参数只对列存表有效。	0～60000 默认值：6000
COLD_TABLESPACE	指定冷分区保存的OBS表空间，仅冷热表支持。该参数仅支持列存分区表，且该参数不支持修改，需与STORAGE_POLICY同时使用。在指定STORAGE_POLICY时，可不设置该参数，默认为default_obs_tbs。	有效的OBS TABLESPACE名。
STORAGE_POLICY	指定冷热分区切换规则，仅冷热表支持。该参数需与COLD_TABLESPACE同时使用。	取值范围："冷热切换策略名称:冷热切换的阈值"，目前冷热切换的策略名称只支持LMT和HPN，LMT指按分区的最后更新时间切换，HPN指保留热分区的个数切换。 LMT：[day]：表示切换[day]时间前修改的热分区数据为冷分区，将该数据迁至OBS表空间中。其中[day]为整型，范围[0, 36500]，单位为天。 HPN: [hot_partition_num]：表示保留[hot_partition_num]个有数据的分区为热分区。保留规则为查找出有数据的分区的最大的Sequence ID，大于Sequence ID的无数据分区为热分区，并按这个Sequence ID从大到小保留[hot_partition_num]个分区为热分区；分区Sequence ID小于保留的最小热分区的Sequence ID的分区为冷分区，在冷热切换时，需要将数据迁移至OBS表空间中。其中[hot_partition_num]为整型，范围为[0,1600]。注意：对于LIST分区，建议谨慎使用HPN策略，否则可能出现新增分区不是热分区的情况。
ENABLE_MULTI_TEMP_DISKCACHE	冷热表性能优化参数，仅支持冷热表设置，该参数仅9.1.0及以上版本支持。	on或off 默认值：on/true
PERIOD	指定分区管理中自动创建分区的周期，并开启自动创建分区功能。仅支持行存、列存范围分区表、时序表以及冷热表；分区键唯一并且类型仅支持TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE；不支持存在maxvalue分区；(nowTime - boundaryTime) / PERIOD需要小于分区个数上限，其中nowTime为当前时间，boundaryTime为现有分区中最早的分区边界时间；不支持在小型机、加速集群上使用。	1 hour ~ 100 years 注意：在兼容Teradata或MySQL的数据库中，分区键类型为DATE时，PERIOD不能小于1 day。建分区表时，如果设置了PERIOD，则可以只指定分区键不指定分区。建表时将创建两个默认分区，这两个默认分区的分区时间范围均为PERIOD。其中，第一个默认分区的边界时间是大于当前时间的第一个整时/整天/整周/整月/整年的时间，具体选择哪种整点时间取决于PERIOD的最大单位；第二个默认分区的边界时间是第一个分区边界时间加PERIOD。假设当前时间是2022-02-17 16:32:45，各种情况的第一个默认分区的分区边界选择如表7。有关默认分区的更多内容，请参见示例：创建不指定分区的自动分区管理分区表。
TTL	指定分区管理中分区过期的时间，并开启自动删除分区功能。不支持单独设置，必须要提前或同时设置PERIOD，并且要大于或等于PERIOD。 TTL（Time To Live）指明该表的数据保存周期，超过TTL周期的数据将被清理，具体做法是以period周期，自动调用proc_drop_partition (relname regclass, older_than interval)函数。PERIOD和TTL的值为Interval类型，例如：“1 hour”, “1 day”, “1 week”, “1 month” ,“1 year”, “1 month 2 day 3 hour”。 PERIOD指明按照时间划分的周期对数据进行分区，分区的大小可能对查询性能有影响，同时每隔周期时间会创建一个新的周期大小的分区，具体做法是以period周期，自动调用proc_add_partition (relname regclass, boundaries_interval interval)函数。	1 hour ~ 100 years 注意：自动创建与自动删除分区功能是在创建自动分区任务时开始执行，例如：2026-3-12 15:30:00创建自动分区管理的表(TTL=7 days, PERIOD = 1 day)，从2026-3-12 15:30:00开始，每天15:30:00都会触发自动创建与自动删除分区。
time_format	自增减分区支持INT4/INT8/VARCHAR/TEXT列，存储内容为时间时使用。time_format选项仅当分区键为INT4/INT8/VARCHAR/TEXT时，同时指定period才生效。该参数仅9.1.0.200及以上集群版本支持。	time_format写法遵从postgresql规范，例如：time_format = 'yyyymmdd'。分区键的类型 VARCHAR/TEXT对time_format的规格有如下限制：精度支持到秒级。输入内容不包括字母类型，例如month，am，pm等。时间必须从大到小排列，例如年月日小时分钟秒。 INT4/INT8对time_format的规格有如下限制：精度支持到小时级。输入内容仅包括Y,M,D,HH24。时间必须从大到小排列，例如年月日小时。 ALTER相关限制不支持set。当period被reset时（表示已经关闭自动分区，会报出提示），此时可以reset此选项。
COLVERSION	指定列存存储格式的版本，支持不同存储格式版本之间的切换，但分区表不支持存储格式版本切换。	1.0：列存表的每列以一个单独的文件进行存储，文件名以relfilenode.C1.0、relfilenode.C2.0、relfilenode.C3.0等命名。 2.0：列存表的每列合并存储在一个文件中，文件名以relfilenode.C1.0命名。默认值：2.0 需注意，OBS冷热表仅支持colversion 2.0格式。注意：在建列存表时选择COLVERSION=2.0，相比于1.0存储格式，在以下场景中性能有明显提升：创建列存宽表场景下，建表时间显著减少。 roach备份数据场景下，备份时间显著减少。 build、catch up耗时显著减少。
SKIP_FPI_HINT	顺序扫描过程中，若需要写FPW(full page writes)日志时，该参数控制是否跳过设置HintBits操作。	默认值：false 注意：设置SKIP_FPI_HINT=true时，在对某表执行checkpoint操作后，若对该表进行顺序扫描，将不再产生Xlog。适用于查询次数较少的中间表，有效减少Xlog的大小，提升查询性能。

PARTITION BY子句参数说明

partition_less_than_item：

     PARTITION partition_name VALUES LESS THAN ( { partition_value | MAXVALUE } )

partition_start_end_item：

     PARTITION partition_name {
        {START(partition_value) END (partition_value) EVERY (interval_value)} |
        {START(partition_value) END ({partition_value | MAXVALUE})} |
        {START(partition_value)} |
        {END({partition_value | MAXVALUE})}
} 
 
 
  

list_partition_item：

     PARTITION partition_name VALUES ( { (partition_value) [, ...] | DEFAULT } )

表5 PARTITION BY子句参数说明

参数

描述

取值范围

PARTITION BY RANGE(partition_key)

指定范围分区策略语法，partition_key为分区键的名称。

对于从句是VALUES LESS THAN的语法格式：
注意：

对于从句是VALUES LESS THAN的语法格式，范围分区策略的分区键最多支持4列，且分区键只能是列名。当存在多个分区键时，一个列名只能出现一次，且相邻的两个分区键要使用逗号隔开。

该情形下，分区键支持的数据类型为：SMALLINT、INTEGER、BIGINT、DECIMAL、NUMERIC、REAL、DOUBLE PRECISION、CHARACTER VARYING(n)、VARCHAR(n)、CHARACTER(n)、CHAR(n)、CHARACTER、CHAR、TEXT、NVARCHAR2、NAME、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。
对于从句是START END的语法格式：
注意：

对于从句是START END的语法格式，范围分区策略的分区键仅支持1列。

该情形下，分区键支持的数据类型为：SMALLINT、INTEGER、BIGINT、DECIMAL、NUMERIC、REAL、DOUBLE PRECISION、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。

PARTITION BY LIST (partition_key,[...])

指定列表分区策略语法，partition_key为分区键的名称。

列表分区策略分区键支持的数据类型为：TINYINT、SMALLINT、INTEGER、BIGINT、NUMERIC/DECIMAL、TEXT、NVARCHAR2、VARCHAR(n)、CHAR、BPCHAR、TIME、TIME WITH TIMEZONE、TIMESTAMP、TIMESTAMP WITH TIME ZONE、DATE、INTERVAL、SMALLDATETIME。

注意：

列表分区策略的分区键最多支持4列。

partition_less_than_item

范围分区策略下分区（简称为范围分区）的定义语法。partition_name为范围分区的名称。partition_value为范围分区的上边界，取值依赖于partition_key的类型。MAXVALUE表示分区的上边界，它通常用于设置最后一个范围分区的上边界。

     PARTITION partition_name VALUES LESS THAN ( { partition_value | MAXVALUE } )

注意：

每个分区都需要指定一个上边界。
分区上边界的类型应当和分区键的类型一致。
分区列表是按照分区上边界升序排列的，值较小的分区位于值较大的分区之前。
如果分区键由多个字段组成，比较大小时，先比较第一个字段，当第一个字段相等时比较第二个字段，以此类推。

partition_start_end_item

使用起始值以及间隔值定义范围分区的语法。

     PARTITION partition_name {START (partition_value) END (partition_value) EVERY (interval_value)} 
                       | {START (partition_value) END (partition_value|MAXVALUE)} 
                       | {START(partition_value)}
                       | {END (partition_value| MAXVALUE)}

各参数含义如下：

partition_name：范围分区的名称或名称前缀，除以下情形外（假定其中的partition_name是p1），均为分区的名称。
- 若该定义是START+END+EVERY从句，则语义上定义的分区的名称依次为p1_1, p1_2, ...。例如对于定义“PARTITION p1 START(1) END(4) EVERY(1)”，则生成的分区是：[1, 2), [2, 3) 和 [3, 4)，名称依次为p1_1, p1_2和p1_3，即此处的p1是名称前缀。
- 若该定义是第一个分区定义，且该定义有START值，则范围（MINVALUE, START）将自动作为第一个实际分区，其名称为p1_0，然后该定义语义描述的分区名称依次为p1_1, p1_2, ...。例如对于完整定义“PARTITION p1 START(1), PARTITION p2 START(2)”，则生成的分区是：(MINVALUE, 1), [1, 2) 和 [2, MAXVALUE)，其名称依次为p1_0, p1_1和p2，即此处p1是名称前缀，p2是分区名称。这里MINVALUE表示最小值。
partition_value：范围分区的端点值（起始或终点），取值依赖于partition_key的类型，不可是MAXVALUE。
interval_value：对[START，END) 表示的范围进行切分，interval_value是指定切分后每个分区的宽度，不可是MAXVALUE；如果（END-START）值不能整除以EVERY值，则仅最后一个分区的宽度小于EVERY值。
MAXVALUE：表示最大值，它通常用于设置最后一个范围分区的上边界。

注意：

在创建分区表若第一个分区定义含START值，则范围（MINVALUE，START）将自动作为实际的第一个分区。
START END语法需要遵循以下限制：
- 每个partition_start_end_item中的START值（如果有的话，下同）必须小于其END值；
- 相邻的两个partition_start_end_item，第一个的END值必须等于第二个的START值；
- 每个partition_start_end_item中的EVERY值必须是正向递增的，且必须小于（END-START）值；
- 每个分区包含起始值，不包含终点值，即形如：[起始值，终点值)，起始值是MINVALUE时则不包含；
- 一个partition_start_end_item创建的每个分区所属的TABLESPACE一样；
- partition_name作为分区名称前缀时，其长度不要超过57字节，超过时自动截断；
- 在创建、修改分区表时请注意分区表的分区总数不可超过最大限制（32767）；
在创建分区表时START END与LESS THAN语法不可混合使用。
即使创建分区表时使用START END语法，备份（gs_dump）出的SQL语句也是VALUES LESS THAN语法格式。

list_partition_item

列表分区策略下分区（简称为列表分区）的定义语法。partition_name为分区的名称。partition_value为列表分区边界的一个枚举值，取值依赖于partition_key的类型。DEFAULT表示默认分区的边界。

     PARTITION partition_name VALUES ( { (partition_value) [, ... ] | DEFAULT } )

对于列表分区表，存在以下约定和约束：

边界值为DEFAULT的分区，称之为默认分区。
每个列表分区表只能有一个DEFAULT分区。
分区表的所有分区数不超过32767个，所有分区的边界值个数不大于32767个。
不管分区键的个数，DEFAULT分区的边界只能是一个DEFAULT。
如果分区键由多个字段组成，每个partition_value需要包含所有分区键的值，当分区键只有一列时，partition_value两侧的括号可以省略，参见示例：创建多个分区键的list分区表。
如果分区键由多个字段组成，比较大小时，先逐个字段比较大小，任何一个字段值不一样即可认为是不一样的键值。
边界中不同的partition_value值不能重复。
数据插入时，如果数据的分区键值能匹配任何非DEFAULT分区的边界，那么数据会写入对应的分区；否则数据会写入DEFAULT分区。

表6 唯一索引中索引列NULL值的处理方式
字段控制	索引列全为NULL	部分索引列为NULL
NULLS DISTINCT	可重复插入	可重复插入
NULLS NOT DISTINCT	不可重复插入	非NULL值相等，不可插入；非NULL值不相等，则插入成功
NULLS IGNORE	可重复插入	非NULL值相等，不可插入；非NULL值不相等，则插入成功

表7 分区边界选择
period	period最大单位	第一个默认分区的分区边界
1hour	Hour	2022-02-17 17:00:00
1day	Day	2022-02-18 00:00:00
1month	Month	2022-03-01 00:00:00
13month	Year	2023-01-01 00:00:00

DISTRIBUTE BY参数使用说明

默认值：由GUC参数default_distribution_mode控制。

当default_distribution_mode=roundrobin时，DISTRIBUTE BY的默认值按如下规则选取：
1. 若建表时包含主键/唯一约束，则选取HASH分布，分布列为主键/唯一约束对应的列。
2. 若建表时不包含主键/唯一约束，则选取ROUNDROBIN分布。
当default_distribution_mode=hash时，DISTRIBUTE BY的默认值按如下规则选取：
1. 若建表时包含主键/唯一约束，则选取HASH分布，分布列为主键/唯一约束对应的列。
2. 若建表时不包含主键/唯一约束，但存在数据类型支持作分布列的列，则选取HASH分布，分布列为第一个数据类型支持作分布列的列。
3. 若建表时不包含主键/唯一约束，也不存在数据类型支持作分布列的列，选取ROUNDROBIN分布。

以下数据类型支持作为分布列：

INTEGER TYPES：TINYINT，SMALLINT，INT，BIGINT，NUMERIC/DECIMAL
CHARACTER TYPES：CHAR，BPCHAR，VARCHAR，VARCHAR2，NVARCHAR2，TEXT
DATE/TIME TYPES：DATE，TIME，TIMETZ，TIMESTAMP，TIMESTAMPTZ，INTERVAL，SMALLDATETIME

示例：使用LESS THAN语法创建range分区表

Range分区表customer_address含有4个分区，分区键为integer类型。分区的范围分别为：ca_address_sk<2450815，2450815<= ca_address_sk< 2451179，2451179<= ca_address_sk< 2451544，2451544<=ca_address_sk。

     DROP TABLE IF EXISTS customer_address;
CREATE TABLE customer_address
(
    ca_address_sk       INTEGER                  NOT NULL   ,
    ca_address_id       CHARACTER(16)            NOT NULL   ,
    ca_street_number    CHARACTER(10)                       ,
    ca_street_name      CHARACTER varying(60)               ,
    ca_street_type      CHARACTER(15)                       ,
    ca_suite_number     CHARACTER(10)                    
)
DISTRIBUTE BY HASH (ca_address_sk)
PARTITION BY RANGE(ca_address_sk)
(
        PARTITION P1 VALUES LESS THAN(2450815),
        PARTITION P2 VALUES LESS THAN(2451179),
        PARTITION P3 VALUES LESS THAN(2451544),
        PARTITION P4 VALUES LESS THAN(MAXVALUE)
);
 
 
  

查看分区表信息。

SELECT relname, boundaries FROM pg_partition p where p.parentid='customer_address'::regclass ORDER BY 1;

点击放大

查询分区P1的行数。

     SELECT count(*) FROM customer_address PARTITION (P1);
SELECT count(*) FROM customer_address PARTITION FOR (2450815);

示例：开启和关闭行迁移功能ROW MOVEMENT

在更新某行的分区键为新值且新值属于其他分区时，如果打开ROW MOVEMENT，则该行数据对应迁移到新的分区中。

频繁更新分区键时，ENABLE ROW MOVEMENT 可能导致额外I/O开销，需评估业务需求。

创建按日期范围分区的表，并启用行迁移。

     DROP TABLE IF EXISTS sale_data; 
CREATE TABLE  sales_data (
    sale_id  INT,
    product_name VARCHAR(100),
    sale_date DATE,
    amount DECIMAL(10, 2)
)
PARTITION BY RANGE (sale_date) (
    PARTITION p_2023q1 VALUES LESS THAN ('2023-04-01'),
    PARTITION p_2023q2 VALUES LESS THAN ('2023-07-01'),
    PARTITION p_2023q3 VALUES LESS THAN ('2023-10-01'),
    PARTITION p_2023q4 VALUES LESS THAN ('2024-01-01')
)
ENABLE ROW MOVEMENT;
 
 
  

插入测试数据。

     INSERT INTO sales_data (sale_id, product_name, sale_date, amount)
VALUES 
(1, 'Product A', '2023-02-15', 1000.00),  -- 属于 p_2023q1
(2, 'Product B', '2023-05-20', 1500.00);  -- 属于 p_2023q2

查询各分区数据分布。

     SELECT tableoid::regclass AS partition, * FROM sales_data ORDER BY sale_id;

点击放大

尝试更新分区键值（从 p_2023q1 移动到 p_2023q2）。

     UPDATE sales_data SET sale_date = '2023-05-01'  WHERE sale_id = 1;

再次查询各分区数据分布，确认行已移动。

     SELECT tableoid::regclass AS partition, *  FROM sales_data  ORDER BY sale_id;

点击放大

关闭行迁移功能。

     ALTER TABLE sales_data DISABLE ROW MOVEMENT;

再次修改分区键（从 p_2023q2 移动回到 p_2023q2）。

     UPDATE sales_data SET sale_date = '2023-02-15'  WHERE sale_id = 1;

回显提示，行迁移关闭，不允许更新分区键。

点击放大

示例：使用START END语法创建列存range分区表

     DROP TABLE IF EXISTS customer_address_SE;
CREATE TABLE customer_address_SE
(
    ca_address_sk       INTEGER                  NOT NULL   ,
    ca_address_id       CHARACTER(16)            NOT NULL   ,
    ca_street_number    CHARACTER(10)                       ,
    ca_street_name      CHARACTER varying(60)               ,
    ca_street_type      CHARACTER(15)                       ,
    ca_suite_number     CHARACTER(10)                    
)
WITH (ORIENTATION = COLUMN)
DISTRIBUTE BY HASH (ca_address_sk)
PARTITION BY RANGE(ca_address_sk)
(
    PARTITION p1 START(1) END(1000) EVERY(200),
    PARTITION p2 END(2000),
    PARTITION p3 START(2000) END(5000)
);
 
 
  

查看分区表信息。

     SELECT relname, boundaries FROM pg_partition p where p.parentid='customer_address_SE'::regclass ORDER BY 1;

点击放大

示例：START END语法创建、修改Range分区表

创建临时schema。

     DROP SCHEMA IF EXISTS tpcds;
CREATE SCHEMA tpcds;
SET CURRENT_SCHEMA TO tpcds;

创建分区表，分区键是integer类型。

     CREATE TABLE tpcds.startend_pt (c1 INT, c2 INT) 
DISTRIBUTE BY HASH (c1) 
PARTITION BY RANGE (c2) (
    PARTITION p1 START(1) END(1000) EVERY(200),
    PARTITION p2 END(2000),
    PARTITION p3 START(2000) END(2500),
    PARTITION p4 START(2500),
    PARTITION p5 START(3000) END(5000) EVERY(1000)
)
ENABLE ROW MOVEMENT;
 
 
  

查看分区表信息。

     SELECT relname, boundaries FROM pg_partition p where p.parentid='tpcds.startend_pt'::regclass ORDER BY 1;

点击放大

导入数据，查看分区数据量。

     INSERT INTO tpcds.startend_pt VALUES (GENERATE_SERIES(0, 4999), GENERATE_SERIES(0, 4999));
SELECT COUNT(*) FROM tpcds.startend_pt PARTITION FOR (0);
SELECT COUNT(*) FROM tpcds.startend_pt PARTITION (p3);

点击放大

查看分区表信息。

     SELECT relname, boundaries FROM pg_partition p where p.parentid='tpcds.startend_pt'::regclass ORDER BY 1;

点击放大

示例：创建一个分区键的list分区表

     DROP TABLE IF EXISTS data_list;
CREATE TABLE data_list
(
    id int,
    time int, 
    salary decimal(12,2)
)
PARTITION BY LIST (time)
(
        PARTITION P1 VALUES (202209),
        PARTITION P2 VALUES (202210,202208),
        PARTITION P3 VALUES (202211),
        PARTITION P4 VALUES (202212),
        PARTITION P5 VALUES (202301)
);
 
 
  

示例：创建多个分区键的list分区表

分区表有两个分区键：period，city。

     DROP TABLE IF EXISTS sales_info;
CREATE TABLE sales_info
(
sale_time  timestamptz,
period     int,
city       text,
price      numeric(10,2),
remark     varchar2(100)
)
DISTRIBUTE BY HASH(sale_time)
PARTITION BY LIST (period, city)
(
PARTITION north_2022 VALUES (('202201', 'north1'), ('202202', 'north2')),
PARTITION south_2022 VALUES (('202201', 'south1'), ('202202', 'south2'), ('202203', 'south2')),
PARTITION rest VALUES (DEFAULT)
);
 
 
  

示例：创建不指定分区的自动分区管理分区表

指定分区管理中自动创建分区的周期PERIOD为1 day，分区键为time。

     DROP TABLE IF EXISTS time_part;
CREATE TABLE time_part
 (
	id integer,
	time timestamp
 ) with (PERIOD='1 day')
 partition by range(time);
 
 
  

建表时将创建两个默认分区，第一个默认分区的边界时间是大于当前时间的第一个整天的时间，即2022-12-13 00:00:00；第二个默认分区的边界时间是第一个分区边界时间加PERIOD，即2022-12-13 00:00:00+1day=2022-12-14 00:00:00。

     SELECT now();
SELECT relname, boundaries FROM pg_partition p where p.parentid='time_part'::regclass ORDER BY 1;

点击放大

示例：创建指定分区的自动分区管理分区表

     DROP TABLE IF EXISTS CPU;
CREATE TABLE CPU(
	id integer,
	idle numeric,
	IO numeric,
	scope text,
	IP text,
	time timestamp
) with (TTL='7 days',PERIOD='1 day')
partition by range(time)
(
	PARTITION P1 VALUES LESS THAN('2022-01-05 16:32:45'),
	PARTITION P2 VALUES LESS THAN('2022-01-06 16:56:12')
);
 
 
  

示例：创建指定分区的自动分区管理分区表(非标准timestamp时间类型的分区列)

当分区列的数据类型非标准timestamp，而为VARCHAR、TEXT、INT或BIGINT类型时，需要通过设置表级参数time_format指定分区列中的时间格式。该参数用于指示系统如何解析分区列中的时间值，以便进行自动分区管理。time_format选项仅当分区键为INT4/INT8/VARCHAR/TEXT，同时也指定period时才能成功设置。

创建分区管理表CPU2和CPU3并指定分区，分区列分别为INT、VARCHAR类型。

     -- INT类型
DROP TABLE IF EXISTS CPU2;
CREATE TABLE CPU2(
    id integer,
    IP text,
    time integer
) with (TTL='7 days',PERIOD='1 day', TIME_FORMAT='YYYYMMDD')
partition by range(time)
(
    PARTITION P1 VALUES LESS THAN('20230213'),
    PARTITION P2 VALUES LESS THAN('20230215')
);

-- VARCHAR类型
DROP TABLE IF EXISTS CPU3;
CREATE TABLE CPU3(
    id integer,
    IP text,
    time varchar
) with (TTL='7 days',PERIOD='1 day', TIME_FORMAT='YYYY-MM-DD HH24:MI:SS')
partition by range(time)
(
    PARTITION P1 VALUES LESS THAN('2023-02-13 16:32:45'),
    PARTITION P2 VALUES LESS THAN('2023-02-15 16:48:12')
);
 
 
  

示例：按照月份创建分区表

创建分区表customer_address，含有13个分区，分区键为date类型。

     DROP TABLE IF EXISTS customer_address;
CREATE TABLE customer_address
(
    ca_address_sk       integer           NOT NULL,
    ca_address_date       date            NOT NULL
)
DISTRIBUTE BY HASH (ca_address_sk)
PARTITION BY RANGE (ca_address_date)
(
        PARTITION p202001 VALUES LESS THAN('20200101'),
        PARTITION p202002 VALUES LESS THAN('20200201'),
        PARTITION p202003 VALUES LESS THAN('20200301'),
        PARTITION p202004 VALUES LESS THAN('20200401'),
        PARTITION p202005 VALUES LESS THAN('20200501'),
        PARTITION p202006 VALUES LESS THAN('20200601'),
        PARTITION p202007 VALUES LESS THAN('20200701'),
        PARTITION p202008 VALUES LESS THAN('20200801'),
        PARTITION p202009 VALUES LESS THAN('20200901'),
        PARTITION p202010 VALUES LESS THAN('20201001'),
        PARTITION p202011 VALUES LESS THAN('20201101'),
        PARTITION p202012 VALUES LESS THAN('20201201'),
        PARTITION p202013 VALUES LESS THAN(MAXVALUE)
);
 
 
  

插入数据。

     INSERT INTO customer_address values('1','20200215');
INSERT INTO customer_address values('7','20200805');
INSERT INTO customer_address values('9','20201111');
INSERT INTO customer_address values('4','20201231');

查询分区。

     SELECT * FROM customer_address PARTITION(p202009);

点击放大

示例：使用START END语法一次创建含有多个分区的分区表

创建分区表day_part，每一天为一个分区，分区键为date类型。

     DROP TABLE IF EXISTS day_part;
CREATE table day_part(id int,d_time date)  
DISTRIBUTE BY HASH (id)
PARTITION BY RANGE (d_time)
(PARTITION p1 START('2022-01-01') END('2022-01-31') EVERY(interval '1 day'));
ALTER TABLE  day_part ADD PARTITION pmax VALUES LESS THAN (maxvalue);
 
 
  

创建分区表week_part，每7天为一个分区，分区键为date类型。

     DROP TABLE IF EXISTS week_part;
CREATE TABLE week_part(id int,w_time date)
DISTRIBUTE BY HASH (id)
PARTITION BY RANGE (w_time) 
(PARTITION p1 START('2021-01-01') END('2022-01-01') EVERY(interval '7 day'));
ALTER TABLE  week_part ADD PARTITION pmax VALUES LESS THAN (maxvalue);
 
 
  

创建分区表month_part，每一个月为一个分区，分区键为date类型。

     DROP TABLE IF EXISTS month_part;
CREATE TABLE month_part(id int,m_time date)
DISTRIBUTE BY HASH (id)
PARTITION BY RANGE (m_time)
(PARTITION p1 START('2021-01-01') END('2022-01-01') EVERY(interval '1 month'));
ALTER TABLE  month_part ADD PARTITION pmax VALUES LESS THAN (maxvalue);
 
 
  

示例：创建冷热表

仅支持列存分区表，使用obs默认表空间，冷热切换规则设置LMT为30。

     DROP TABLE IF EXISTS cold_hot_table;
CREATE TABLE cold_hot_table
(
    W_WAREHOUSE_ID            CHAR(16)              NOT NULL,
    W_WAREHOUSE_NAME          VARCHAR(20)                   ,
    W_STREET_NUMBER           CHAR(10)                      ,
    W_STREET_NAME             VARCHAR(60)                   ,
    W_STREET_ID               CHAR(15)                      ,
    W_SUITE_NUMBER            CHAR(10)                     
)
WITH (ORIENTATION = COLUMN, storage_policy = 'LMT:30')
DISTRIBUTE BY HASH (W_WAREHOUSE_ID)
PARTITION BY RANGE(W_STREET_ID)
(
    PARTITION P1 VALUES LESS THAN(100000),
    PARTITION P2 VALUES LESS THAN(200000),
    PARTITION P3 VALUES LESS THAN(300000),
    PARTITION P4 VALUES LESS THAN(MAXVALUE)
)ENABLE ROW MOVEMENT;
 
 
  

常见问题

使用实践：使用DWS分区自动管理功能降低电商和物联网行业数据分区维护成本

父主题：表和外部数据源

上一篇：CREATE TABLE

下一篇：CREATE TABLE AS

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

CREATE TABLE PARTITION

功能描述

范围分区和列表分区的核心差异

分区的优势

注意事项

语法格式

CREATE TABLE PARTITION主句参数说明

列约束CONSTRAINT constraint_name参数说明

表约束table_constraint参数说明

LIKE参数使用说明

WITH子句参数说明

PARTITION BY子句参数说明

DISTRIBUTE BY参数使用说明

示例：使用LESS THAN语法创建range分区表

示例：开启和关闭行迁移功能ROW MOVEMENT

示例：使用START END语法创建列存range分区表

示例：START END语法创建、修改Range分区表

示例：创建一个分区键的list分区表

示例：创建多个分区键的list分区表

示例：创建不指定分区的自动分区管理分区表

示例：创建指定分区的自动分区管理分区表

示例：创建指定分区的自动分区管理分区表(非标准timestamp时间类型的分区列)

示例：按照月份创建分区表

示例：使用START END语法一次创建含有多个分区的分区表

示例：创建冷热表

相关链接

常见问题

意见反馈

文档内容是否对您有帮助？