更新时间:2024-03-06 GMT+08:00

CREATE TABLE PARTITION

功能描述

创建分区表。把逻辑上的一张表根据某种方案分成几张物理块进行存储,这张逻辑上的表称之为分区表,物理块称之为分区。分区表是一张逻辑表,不存储数据,数据实际是存储在分区上的。

常见的分区方案有范围分区(Range Partitioning)、哈希分区(Hash Partitioning)、列表分区(List Partitioning)、数值分区(Value Partition)等。目前行存表、列存表仅支持范围分区。

范围分区是根据表的一列或者多列,将要插入表的记录分为若干个范围,这些范围在不同的分区里没有重叠。为每个范围创建一个分区,用来存储相应的数据。

范围分区的分区策略是指记录插入分区的方式。目前范围分区仅支持范围分区策略。

范围分区策略:根据分区键值将记录映射到已创建的某个分区上,如果可以映射到已创建的某一分区上,则把记录插入到对应的分区上,否则给出报错和提示信息。这是最常用的分区策略。

分区可以提供若干好处:

  • 某些类型的查询性能可以得到极大提升。特别是表中访问率较高的行位于一个单独分区或少数几个分区上的情况下。分区可以减少数据的搜索空间,提高数据访问效率。
  • 当查询或更新一个分区的大部分记录时,连续扫描那个分区而不是访问整个表可以获得巨大的性能提升。
  • 如果需要大量加载或者删除的记录位于单独的分区上,则可以通过直接读取或删除那个分区以获得巨大的性能提升,同时还可以避免由于大量DELETE导致的VACUUM超载(仅范围分区)。

注意事项

有限地支持唯一约束和主键约束,即唯一约束和主键约束的约束键必须包含所有分区键。

语法格式

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
CREATE TABLE [ IF NOT EXISTS ] partition_table_name
( [ 
    { column_name data_type [ COLLATE collation ] [ column_constraint [ ... ] ]
    | table_constraint
    | LIKE source_table [ like_option [...] ] }[, ... ]
] )
    [ WITH ( {storage_parameter = value} [, ... ] ) ]
    [ COMPRESS | NOCOMPRESS ]
    [ TABLESPACE tablespace_name ]
    [ DISTRIBUTE BY { REPLICATION | { [ HASH ] ( column_name ) } } ]
    [ TO { GROUP groupname | NODE ( nodename [, ... ] ) } ]
    PARTITION BY { 
        {VALUES (partition_key)} |
        {RANGE (partition_key) ( partition_less_than_item [, ... ] )} |
        {RANGE (partition_key) ( partition_start_end_item [, ... ] )}
    } [ { ENABLE | DISABLE } ROW MOVEMENT ]; 
  • 列约束column_constraint:
    1
    2
    3
    4
    5
    6
    7
    8
    [ CONSTRAINT constraint_name ]
    { NOT NULL |
      NULL | 
      CHECK ( expression ) | 
      DEFAULT default_expr | 
      UNIQUE index_parameters | 
      PRIMARY KEY index_parameters }
    [ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ]
    
  • 表约束table_constraint:
    [ CONSTRAINT constraint_name ]
    { CHECK ( expression ) | 
      UNIQUE ( column_name [, ... ] ) index_parameters | 
      PRIMARY KEY ( column_name [, ... ] ) index_parameters}
    [ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ]
  • like选项like_option:
    1
    { INCLUDING | EXCLUDING } { DEFAULTS | CONSTRAINTS | INDEXES | STORAGE | COMMENTS | RELOPTIONS | DISTRIBUTION | ALL }
    
  • 索引存储参数index_parameters:
    1
    2
    [ WITH ( {storage_parameter = value} [, ... ] ) ]
    [ USING INDEX TABLESPACE tablespace_name ]
    
  • partition_less_than_item:
    1
    PARTITION partition_name VALUES LESS THAN ( { partition_value | MAXVALUE } ) [TABLESPACE tablespace_name]
    
  • partition_start_end_item:
    1
    2
    3
    4
    5
    6
    PARTITION partition_name {
            {START(partition_value) END (partition_value) EVERY (interval_value)} |
            {START(partition_value) END ({partition_value | MAXVALUE})} |
            {START(partition_value)} |
            {END({partition_value | MAXVALUE})}
    } [TABLESPACE tablespace_name]
    

参数说明

  • IF NOT EXISTS

    如果已经存在相同名称的表,不会抛出一个错误,而会发出一个通知,告知表关系已存在。

  • partition_table_name

    分区表的名称。

    取值范围:字符串,要符合标识符的命名规范。

  • column_name

    新表中要创建的字段名。

    取值范围:字符串,要符合标识符的命名规范。

  • data_type

    字段的数据类型。

  • COLLATE collation

    COLLATE子句指定列的排序规则(该列必须是可排列的数据类型)。如果没有指定,则使用默认的排序规则。

    可排列的数据类型有char、varchar、text、nchar、nvarchar。

  • CONSTRAINT constraint_name

    列约束或表约束的名字。可选的约束子句用于声明约束,新行或者更新的行必须满足这些约束才能成功插入或更新。

    定义约束有两种方法:

    • 列约束:作为一个列定义的一部分,仅影响该列。
    • 表约束:不和某个列绑在一起,可以作用于多个列。
  • LIKE source_table [ like_option ... ]

    LIKE子句声明一个表,新表自动从这个表里面继承所有字段名及其数据类型和非空约束。

    和INHERITS不同,新表与原来的表之间在创建动作完毕之后是完全无关的。在源表做的任何修改都不会传播到新表中,并且也不可能在扫描源表的时候包含新表的数据。

    字段缺省表达式只有在声明了INCLUDING DEFAULTS之后才会包含进来。缺省是不包含缺省表达式的,即新表中所有字段的缺省值都是NULL。

    非空约束将总是复制到新表中,CHECK约束则仅在指定了INCLUDING CONSTRAINTS的时候才复制,而其他类型的约束则永远也不会被复制。此规则同时适用于表约束和列约束。

    和INHERITS不同,被复制的列和约束并不使用相同的名字进行融合。如果明确的指定了相同的名字或者在另外一个LIKE子句中,将会报错。

    • 如果指定了INCLUDING INDEXES,则源表上的索引也将在新表上创建,默认不建立索引。
    • 如果指定了INCLUDING STORAGE,则拷贝列的STORAGE设置也将被拷贝,默认情况下不包含STORAGE设置。
    • 如果指定了INCLUDING COMMENTS,则源表列、约束和索引的注释也会被拷贝过来。默认情况下,不拷贝源表的注释。
    • 如果指定了INCLUDING RELOPTIONS,则源表的存储参数(即源表的WITH子句)也将拷贝至新表。默认情况下,不拷贝源表的存储参数。
    • 如果指定了INCLUDING DISTRIBUTION,则新表将拷贝源表的分布信息,包括分布类型和分布列,同时新表将不能再使用DISTRIBUTE BY子句。默认情况下,不拷贝源表的分布信息。
    • INCLUDING ALL是INCLUDING DEFAULTS INCLUDING CONSTRAINTS INCLUDING INDEXES INCLUDING STORAGE INCLUDING COMMENTS INCLUDING RELOPTIONS INCLUDING DISTRIBUTION的简写形式。
  • WITH ( storage_parameter [= value] [, ... ] )

    这个子句为表或索引指定一个可选的存储参数。参数的详细描述如下所示:

    • FILLFACTOR

      一个表的填充因子(fillfactor)是一个介于10和100之间的百分数。100(完全填充)是默认值。如果指定了较小的填充因子,INSERT操作仅按照填充因子指定的百分率填充表页。每个页上的剩余空间将用于在该页上更新行,这就使得UPDATE有机会在同一页上放置同一条记录的新版本,这比把新版本放置在其他页上更有效。对于一个从不更新的表将填充因子设为100是优良选择,但是对于频繁更新的表,选择较小的填充因子则更加合适。该参数对于列存表没有意义。

      取值范围:10~100

    • ORIENTATION

      决定了表的数据的存储方式。

      取值范围:

      • COLUMN:表的数据将以列式存储。
      • ROW(缺省值):表的数据将以行式存储。
      • ORC:表的数据将以ORC格式存储(仅HDFS表)。

        orientation不支持修改。

    • COMPRESSION
      • 列存表的有效值为YES/NO和LOW/MIDDLE/HIGH,默认值为LOW。
      • 行存表的有效值为YES/NO,默认值为NO。

        行存表压缩功能暂未商用,如需使用请联系技术支持工程师。

    • MAX_BATCHROW

      指定了在数据加载过程中一个存储单元可以容纳记录的最大数目。该参数只对列存表有效。

      取值范围:10000~60000

      默认值:60000

    • PARTIAL_CLUSTER_ROWS

      指定了在数据加载过程中进行将局部聚簇存储的记录数目。该参数只对列存表有效。

      取值范围:其有效值为大于等于10万。此值是MAX_BATCHROW的倍数。

    • enable_delta

      指定了在列存表是否开启delta表。该参数只对列存表有效。

      默认值:off

    • DELTAROW_THRESHOLD

      预留参数。该参数只对列存表有效。

      取值范围:0~60000,默认值为6000

    • COLD_TABLESPACE

      指定冷分区保存的OBS表空间,仅冷热表支持。该参数仅支持列存分区表,且该参数不支持修改,需与storage_policy同时使用。

      取值范围:有效的OBS表空间名。

    • STORAGE_POLICY

      指定冷热分区切换规则,仅冷热表支持。该参数需与cold_tablespace同时使用。

      取值范围:"冷热切换策略名称:冷热切换的阈值",目前冷热切换的策略名称只支持LMT和HPN,LMT指按分区的最后更新时间切换,HPN指保留热分区的个数切换。

      • LMT:[day]:表示切换[day]时间前修改的热分区数据为冷分区,将该数据迁至OBS表空间中。其中[day]为整型,范围[0, 36500],单位为天。
      • HPN: [hot_partition_num]:表示保留[hot_partition_num]个有数据的分区为热分区。保留规则为查找出有数据的分区的最大的Sequence ID,大于Sequence ID的无数据分区为热分区,并按这个Sequence ID从大到小保留[hot_partition_num]个分区为热分区;分区Sequence ID小于保留的最小热分区的Sequence ID的分区为冷分区,在冷热切换时,需要将数据迁移至OBS表空间中。其中[hot_partition_num]为整型,范围为[0,1600]。
    • COLVERSION

      指定列存存储格式的版本,支持不同存储格式版本之间的切换,但分区表不支持存储格式版本切换。

      取值范围:

      1.0:列存表的每列以一个单独的文件进行存储,文件名以relfilenode.C1.0、relfilenode.C2.0、relfilenode.C3.0等命名。

      2.0:列存表的每列合并存储在一个文件中,文件名以relfilenode.C1.0命名

      默认值:2.0

      需注意,OBS冷热表仅支持colversion 2.0格式。

      在建列存表时选择COLVERSION=2.0,相比于1.0存储格式,在以下场景中性能有明显提升:

      1. 创建列存宽表场景下,建表时间显著减少。
      2. roach备份数据场景下,备份时间显著减少。
      3. build、catch up耗时显著减少。
      4. 占用磁盘空间大小显著减少。
    • SKIP_FPI_HINT

      顺序扫描过程中,若需要写FPW(full page writes)日志时,该参数控制是否跳过设置HintBits操作。

      默认值:false

      设置SKIP_FPI_HINT=true时,在对某表执行checkpoint操作后,若对该表进行顺序扫描,将不再产生Xlog。适用于查询次数较少的中间表,有效减少Xlog的大小,提升查询性能。

  • COMPRESS / NOCOMPRESS

    创建一个新表时,需要在创建表语句中指定关键字COMPRESS,这样,当对该表进行批量插入时就会触发压缩特性。该特性会在页范围内扫描所有元组数据,生成字典、压缩元组数据并进行存储。指定关键字NOCOMPRESS则不对表进行压缩。

    缺省值为NOCOMPRESS,即不对元组数据进行压缩。

  • TABLESPACE tablespace_name

    指定新表将要在tablespace_name表空间内创建。如果没有声明,将使用默认表空间。

  • DISTRIBUTE BY

    指定表如何在节点之间分布或者复制。

    取值范围:

    • REPLICATION:表的每一行存在所有数据节点( DN )中,即每个数据节点都有完整的表数据。
    • HASH (column_name ) :对指定的列进行Hash,通过映射,把数据分布到指定DN。
    • 当指定DISTRIBUTE BY HASH (column_name)参数时,创建主键和唯一索引必须包含“ column_name”列。
    • 当被参照表指定DISTRIBUTE BY HASH (column_name)参数时,参照表的外键必须包含“ column_name”列。

    缺省值:HASH(column_name),column_name取表的主键列(如果有的话)或首个数据类型支持作为分布列的列。

    column_name的数据类型必须是以下类型之一:

    • INTEGER TYPES: TINYINT, SMALLINT, INT, BIGINT, NUMERIC/DECIMAL
    • CHARACTER TYPES: CHAR, BPCHAR, VARCHAR, VARCHAR2, NVARCHAR2
    • DATA/TIME TYPES: DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ, INTERVAL, SMALLDATETIME
  • TO { GROUP groupname | NODE ( nodename [, ... ] ) }

    TO GROUP指定创建表所在的Node Group,目前不支持hdfs表使用。TO NODE主要供内部扩容工具使用,一般用户不应该使用。

  • PARTITION BY RANGE(partition_key)

    创建范围分区。partition_key为分区键的名称。

    (1)对于从句是VALUES LESS THAN的语法格式:

    对于从句是VALUE LESS THAN的语法格式,范围分区策略的分区键最多支持4列。

    该情形下,分区键支持的数据类型为:SMALLINT、INTEGER、BIGINT、DECIMAL、NUMERIC、REAL、DOUBLE PRECISION、CHARACTER VARYING(n)、VARCHAR(n)、CHARACTER(n)、CHAR(n)、CHARACTER、CHAR、TEXT、NVARCHAR2、NAME、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。

    (2)对于从句是START END的语法格式:

    对于从句是START END的语法格式,范围分区策略的分区键仅支持1列。

    该情形下,分区键支持的数据类型为:SMALLINT、INTEGER、BIGINT、DECIMAL、NUMERIC、REAL、DOUBLE PRECISION、TIMESTAMP[(p)] [WITHOUT TIME ZONE]、TIMESTAMP[(p)] [WITH TIME ZONE]、DATE。

  • PARTITION partition_name VALUES LESS THAN ( { partition_value | MAXVALUE } )

    指定各分区的信息。partition_name为范围分区的名称。partition_value为范围分区的上边界,取值依赖于partition_key的类型。MAXVALUE表示分区的上边界,它通常用于设置最后一个范围分区的上边界。

    • 每个分区都需要指定一个上边界。
    • 分区上边界的类型应当和分区键的类型一致。
    • 分区列表是按照分区上边界升序排列的,值较小的分区位于值较大的分区之前。
    • 如果分区键由多个字段组成,比较大小时,先比较第一个字段,当第一个字段相等时比较第二个字段,以此类推。
  • PARTITION partition_name {START (partition_value) END (partition_value) EVERY (interval_value)} | {START (partition_value) END (partition_value|MAXVALUE)} | {START(partition_value)} | {END (partition_value | MAXVALUE)}

    指定各分区的信息,各参数意义如下:

    • partition_name:范围分区的名称或名称前缀,除以下情形外(假定其中的partition_name是p1),均为分区的名称。
      • 若该定义是START+END+EVERY从句,则语义上定义的分区的名称依次为p1_1, p1_2, ...。例如对于定义“PARTITION p1 START(1) END(4) EVERY(1)”,则生成的分区是:[1, 2), [2, 3) 和 [3, 4),名称依次为p1_1, p1_2和p1_3,即此处的p1是名称前缀。
      • 若该定义是第一个分区定义,且该定义有START值,则范围(MINVALUE, START)将自动作为第一个实际分区,其名称为p1_0,然后该定义语义描述的分区名称依次为p1_1, p1_2, ...。例如对于完整定义“PARTITION p1 START(1), PARTITION p2 START(2)”,则生成的分区是:(MINVALUE, 1), [1, 2) 和 [2, MAXVALUE),其名称依次为p1_0, p1_1和p2,即此处p1是名称前缀,p2是分区名称。这里MINVALUE表示最小值。
    • partition_value:范围分区的端点值(起始或终点),取值依赖于partition_key的类型,不可是MAXVALUE。
    • interval_value:对[START,END) 表示的范围进行切分,interval_value是指定切分后每个分区的宽度,不可是MAXVALUE;如果(END-START)值不能整除以EVERY值,则仅最后一个分区的宽度小于EVERY值。
    • MAXVALUE:表示最大值,它通常用于设置最后一个范围分区的上边界。
    1. 在创建分区表若第一个分区定义含START值,则范围(MINVALUE,START)将自动作为实际的第一个分区。
    2. START END语法需要遵循以下限制:
      • 每个partition_start_end_item中的START值(如果有的话,下同)必须小于其END值;
      • 相邻的两个partition_start_end_item,第一个的END值必须等于第二个的START值;
      • 每个partition_start_end_item中的EVERY值必须是正向递增的,且必须小于(END-START)值;
      • 每个分区包含起始值,不包含终点值,即形如:[起始值,终点值),起始值是MINVALUE时则不包含;
      • 一个partition_start_end_item创建的每个分区所属的TABLESPACE一样;
      • partition_name作为分区名称前缀时,其长度不要超过57字节,超过时自动截断;
      • 在创建、修改分区表时请注意分区表的分区总数不可超过最大限制(32767);
    3. 在创建分区表时START END与LESS THAN语法不可混合使用。
    4. 即使创建分区表时使用START END语法,备份(gs_dump)出的SQL语句也是VALUES LESS THAN语法格式。
  • { ENABLE | DISABLE } ROW MOVEMENT

    行迁移开关。

    如果进行UPDATE操作时,更新了元组在分区键上的值,造成了该元组所在分区发生变化,就会根据该开关给出报错信息,或者进行元组在分区间的转移。

    取值范围:

    • ENABLE:行迁移开关打开。
    • DISABLE(缺省值):行迁移开关关闭。
  • NOT NULL

    字段值不允许为NULL。ENABLE用于语法兼容,可省略。

  • NULL

    字段值允许NULL ,这是缺省。

    这个子句只是为和非标准SQL数据库兼容。不建议使用。

  • CHECK (condition) [ NO INHERIT ]

    CHECK约束声明一个布尔表达式,每次要插入的新行或者要更新的行的新值必须使表达式结果为真或未知才能成功,否则会抛出一个异常并且不会修改数据库。

    声明为字段约束的检查约束应该只引用该字段的数值,而在表约束里出现的表达式可以引用多个字段。

    用NO INHERIT标记的约束将不会传递到子表中去。

    ENABLE用于语法兼容,可省略。

  • DEFAULT default_expr

    DEFAULT子句给字段指定缺省值。该数值可以是任何不含变量的表达式(不允许使用子查询和对本表中的其他字段的交叉引用)。缺省表达式的数据类型必须和字段类型匹配。

    缺省表达式将被用于任何未声明该字段数值的插入操作。如果没有指定缺省值则缺省值为NULL 。

  • UNIQUE index_parameters

    UNIQUE ( column_name [, ... ] ) index_parameters

    UNIQUE约束表示表里的一个字段或多个字段的组合必须在全表范围内唯一。

    对于唯一约束,NULL被认为是互不相等的。

    如果没有声明DISTRIBUTE BY REPLICATION,则唯一约束的列集合中必须包含分布列。

  • PRIMARY KEY index_parameters

    PRIMARY KEY ( column_name [, ... ] ) index_parameters

    主键约束声明表中的一个或者多个字段只能包含唯一的非NULL值。

    一个表只能声明一个主键。

    如果没有声明DISTRIBUTE BY REPLICATION,则主键约束的列集合中必须包含分布列。

  • DEFERRABLE | NOT DEFERRABLE

    这两个关键字设置该约束是否可推迟。一个不可推迟的约束将在每条命令之后马上检查。可推迟约束可以推迟到事务结尾使用SET CONSTRAINTS命令检查。缺省是NOT DEFERRABLE。目前,行存的UNIQUE约束和主键约束可以接受这个子句。所有其他约束类型都是不可推迟的。

  • INITIALLY IMMEDIATE | INITIALLY DEFERRED

    如果约束是可推迟的,则这个子句声明检查约束的缺省时间。

    • 如果约束是INITIALLY IMMEDIATE(缺省),则在每条语句执行之后就立即检查它;
    • 如果约束是INITIALLY DEFERRED ,则只有在事务结尾才检查它。

    约束检查的时间可以用SET CONSTRAINTS命令修改。

  • USING INDEX TABLESPACE tablespace_name

    为UNIQUE或PRIMARY KEY约束相关的索引声明一个表空间。如果没有提供这个子句,这个索引将在default_tablespace中创建,如果default_tablespace为空,将使用数据库的缺省表空间。

示例

  • 示例1:创建范围分区表tpcds.web_returns_p1,含有8个分区,分区键为integer类型。 分区的范围分别为:wr_returned_date_sk< 2450815,2450815<= wr_returned_date_sk< 2451179,2451179<=wr_returned_date_sk< 2451544,2451544 <= wr_returned_date_sk< 2451910,2451910 <= wr_returned_date_sk< 2452275,2452275 <= wr_returned_date_sk< 2452640,2452640 <= wr_returned_date_sk< 2453005,wr_returned_date_sk>=2453005。
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    CREATE TABLE tpcds.web_returns_p1
    (
        WR_RETURNED_DATE_SK       INTEGER                       ,
        WR_RETURNED_TIME_SK       INTEGER                       ,
        WR_ITEM_SK                INTEGER               NOT NULL,
        WR_REFUNDED_CUSTOMER_SK   INTEGER                       ,
        WR_REFUNDED_CDEMO_SK      INTEGER                       ,
        WR_REFUNDED_HDEMO_SK      INTEGER                       ,
        WR_REFUNDED_ADDR_SK       INTEGER                       ,
        WR_RETURNING_CUSTOMER_SK  INTEGER                       ,
        WR_RETURNING_CDEMO_SK     INTEGER                       ,
        WR_RETURNING_HDEMO_SK     INTEGER                       ,
        WR_RETURNING_ADDR_SK      INTEGER                       ,
        WR_WEB_PAGE_SK            INTEGER                       ,
        WR_REASON_SK              INTEGER                       ,
        WR_ORDER_NUMBER           BIGINT                NOT NULL,
        WR_RETURN_QUANTITY        INTEGER                       ,
        WR_RETURN_AMT             DECIMAL(7,2)                  ,
        WR_RETURN_TAX             DECIMAL(7,2)                  ,
        WR_RETURN_AMT_INC_TAX     DECIMAL(7,2)                  ,
        WR_FEE                    DECIMAL(7,2)                  ,
        WR_RETURN_SHIP_COST       DECIMAL(7,2)                  ,
        WR_REFUNDED_CASH          DECIMAL(7,2)                  ,
        WR_REVERSED_CHARGE        DECIMAL(7,2)                  ,
        WR_ACCOUNT_CREDIT         DECIMAL(7,2)                  ,
        WR_NET_LOSS               DECIMAL(7,2)
    )
    WITH (ORIENTATION = COLUMN,COMPRESSION=MIDDLE)
    DISTRIBUTE BY HASH (WR_ITEM_SK)
    PARTITION BY RANGE(WR_RETURNED_DATE_SK)
    (
            PARTITION P1 VALUES LESS THAN(2450815),
            PARTITION P2 VALUES LESS THAN(2451179),
            PARTITION P3 VALUES LESS THAN(2451544),
            PARTITION P4 VALUES LESS THAN(2451910),
            PARTITION P5 VALUES LESS THAN(2452275),
            PARTITION P6 VALUES LESS THAN(2452640),
            PARTITION P7 VALUES LESS THAN(2453005),
            PARTITION P8 VALUES LESS THAN(MAXVALUE)
    );
    
  • 示例2:创建范围分区表tpcds.web_returns_p2,含有8个分区,分区键类型为integer类型,其中第8个分区上边界为MAXVALUE。

    八个分区的范围分别为: wr_returned_date_sk< 2450815,2450815<= wr_returned_date_sk< 2451179,2451179<=wr_returned_date_sk< 2451544,2451544 <= wr_returned_date_sk< 2451910,2451910 <= wr_returned_date_sk< 2452275,2452275 <= wr_returned_date_sk< 2452640,2452640 <= wr_returned_date_sk< 2453005,wr_returned_date_sk>=2453005。

    假定CN和DN的数据目录/pg_location/mount1/path1,CN和DN的数据目录/pg_location/mount2/path2,CN和DN的数据目录/pg_location/mount3/path3,CN和DN的数据目录/pg_location/mount4/path4是dwsadmin用户拥有读写权限的空目录。

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    CREATE TABLE tpcds.web_returns_p2
    (
        WR_RETURNED_DATE_SK       INTEGER                       ,
        WR_RETURNED_TIME_SK       INTEGER                       ,
        WR_ITEM_SK                INTEGER               NOT NULL,
        WR_REFUNDED_CUSTOMER_SK   INTEGER                       ,
        WR_REFUNDED_CDEMO_SK      INTEGER                       ,
        WR_REFUNDED_HDEMO_SK      INTEGER                       ,
        WR_REFUNDED_ADDR_SK       INTEGER                       ,
        WR_RETURNING_CUSTOMER_SK  INTEGER                       ,
        WR_RETURNING_CDEMO_SK     INTEGER                       ,
        WR_RETURNING_HDEMO_SK     INTEGER                       ,
        WR_RETURNING_ADDR_SK      INTEGER                       ,
        WR_WEB_PAGE_SK            INTEGER                       ,
        WR_REASON_SK              INTEGER                       ,
        WR_ORDER_NUMBER           BIGINT                NOT NULL,
        WR_RETURN_QUANTITY        INTEGER                       ,
        WR_RETURN_AMT             DECIMAL(7,2)                  ,
        WR_RETURN_TAX             DECIMAL(7,2)                  ,
        WR_RETURN_AMT_INC_TAX     DECIMAL(7,2)                  ,
        WR_FEE                    DECIMAL(7,2)                  ,
        WR_RETURN_SHIP_COST       DECIMAL(7,2)                  ,
        WR_REFUNDED_CASH          DECIMAL(7,2)                  ,
        WR_REVERSED_CHARGE        DECIMAL(7,2)                  ,
        WR_ACCOUNT_CREDIT         DECIMAL(7,2)                  ,
        WR_NET_LOSS               DECIMAL(7,2)
    )
    DISTRIBUTE BY HASH (WR_ITEM_SK)
    PARTITION BY RANGE(WR_RETURNED_DATE_SK)
    (
            PARTITION P1 VALUES LESS THAN(2450815),
            PARTITION P2 VALUES LESS THAN(2451179),
            PARTITION P3 VALUES LESS THAN(2451544),
            PARTITION P4 VALUES LESS THAN(2451910),
            PARTITION P5 VALUES LESS THAN(2452275),
            PARTITION P6 VALUES LESS THAN(2452640),
            PARTITION P7 VALUES LESS THAN(2453005),
            PARTITION P8 VALUES LESS THAN(MAXVALUE) 
    )
    ENABLE ROW MOVEMENT;
    
  • 示例3:START END语法创建、修改Range分区表。

    创建分区表,分区键是integer类型:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    CREATE TABLE tpcds.startend_pt (c1 INT, c2 INT) 
     
    DISTRIBUTE BY HASH (c1) 
    PARTITION BY RANGE (c2) (
        PARTITION p1 START(1) END(1000) EVERY(200) ,
        PARTITION p2 END(2000),
        PARTITION p3 START(2000) END(2500) ,
        PARTITION p4 START(2500),
        PARTITION p5 START(3000) END(5000) EVERY(1000) 
    )
    ENABLE ROW MOVEMENT;
    

    查看分区表信息:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    SELECT relname, boundaries FROM pg_partition p where p.parentid='tpcds.startend_pt'::regclass ORDER BY 1;
       relname   | boundaries
    -------------+------------
     p1_0        | {1}
     p1_1        | {201}
     p1_2        | {401}
     p1_3        | {601}
     p1_4        | {801}
     p1_5        | {1000}
     p2          | {2000}
     p3          | {2500}
     p4          | {3000}
     p5_1        | {4000}
     p5_2        | {5000}
     tpcds.startend_pt |
    (12 rows)
    

    导入数据,查看分区数据量:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    INSERT INTO tpcds.startend_pt VALUES (GENERATE_SERIES(0, 4999), GENERATE_SERIES(0, 4999));
    SELECT COUNT(*) FROM tpcds.startend_pt PARTITION FOR (0);
    count
    -------
    1
    (1 row)
    
    SELECT COUNT(*) FROM tpcds.startend_pt PARTITION (p3);
    count
    -------
    500
    (1 row)
    

    查看分区表信息:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    SELECT relname, boundaries FROM pg_partition p where p.parentid='tpcds.startend_pt'::regclass ORDER BY 1;
       relname   | boundaries
    -------------+------------
     p1_0        | {1}
     p1_1        | {201}
     p1_2        | {401}
     p1_3        | {601}
     p1_4        | {801}
     p1_5        | {1000}
     p2          | {2000}
     p3          | {2500}
     p4          | {3000}
     p5_1        | {4000}
     p6_1        | {5300}
     p6_2        | {5600}
     p6_3        | {5900}
     p71         | {6000}
     q1_1        | {4250}
     q1_2        | {4500}
     q1_3        | {4750}
     q1_4        | {5000}
     tpcds.startend_pt |
    (19 rows)
    
  • 示例4:按照月份创建分区表customer_address,含有13个分区,分区键为date类型。
    创建分区表customer_address:
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    CREATE TABLE customer_address
    (
        ca_address_sk       integer           NOT NULL,
        ca_address_date       date            NOT NULL
    )
    DISTRIBUTE BY HASH (ca_address_sk)
    PARTITION BY RANGE (ca_address_date)
    (
            PARTITION p202001 VALUES LESS THAN('20200101'),
            PARTITION p202002 VALUES LESS THAN('20200201'),
            PARTITION p202003 VALUES LESS THAN('20200301'),
            PARTITION p202004 VALUES LESS THAN('20200401'),
            PARTITION p202005 VALUES LESS THAN('20200501'),
            PARTITION p202006 VALUES LESS THAN('20200601'),
            PARTITION p202007 VALUES LESS THAN('20200701'),
            PARTITION p202008 VALUES LESS THAN('20200801'),
            PARTITION p202009 VALUES LESS THAN('20200901'),
            PARTITION p202010 VALUES LESS THAN('20201001'),
            PARTITION p202011 VALUES LESS THAN('20201101'),
            PARTITION p202012 VALUES LESS THAN('20201201'),
            PARTITION p202013 VALUES LESS THAN(MAXVALUE)
    );
    

    插入数据:

    1
    2
    3
    4
    INSERT INTO customer_address values('1','20200215');
    INSERT INTO customer_address values('7','20200805');
    INSERT INTO customer_address values('9','20201111');
    INSERT INTO customer_address values('4','20201231');
    

    查询分区:

    1
    2
    3
    4
    5
    SELECT * FROM customer_address PARTITION(p202009);
     ca_address_sk |   ca_address_date
    ---------------+---------------------
                 7 | 2020-08-05 00:00:00
    (1 row)
    
  • 示例5:通过START END语法一次创建多个分区语法
    • 创建分区表day_part,每一天为一个分区,分区键为date类型。
      1
      2
      3
      4
      5
      CREATE table day_part(id int,d_time date)  
      DISTRIBUTE BY HASH (id)
      PARTITION BY RANGE (d_time)
      (PARTITION p1 START('2022-01-01') END('2022-01-31') EVERY(interval '1 day'));
      ALTER TABLE  day_part ADD PARTITION pmax VALUES LESS THAN (maxvalue);
      
    • 创建分区表week_part,每7天为一个分区,分区键为date类型。
      1
      2
      3
      4
      5
      CREATE table week_part(id int,w_time date)
      DISTRIBUTE BY HASH (id)
      PARTITION BY RANGE (w_time) 
      (PARTITION p1 START('2021-01-01') END('2022-01-01') EVERY(interval '7 day'));
      ALTER TABLE  week_part ADD PARTITION pmax VALUES LESS THAN (maxvalue);
      
    • 创建分区表month_part,每一个月为一个分区,分区键为date类型。
      1
      2
      3
      4
      5
      CREATE table month_part(id int,m_time date)
      DISTRIBUTE BY HASH (id)
      PARTITION BY RANGE (m_time)
      (PARTITION p1 START('2021-01-01') END('2022-01-01') EVERY(interval '1 month'));
      ALTER TABLE  month_part ADD PARTITION pmax VALUES LESS THAN (maxvalue);