CREATE TABLE
功能描述
在当前数据库中创建一个新的空白表,该表由命令执行者所有。当前默认创建行存表。
注意事项
- 若对非分布键添加主键约束或唯一约束,将默认建立全局二级索引。
- 分布方式默认取值为HASH(column_name),column_name取表的主键列或唯一约束列(如果有的话)或首个数据类型支持作为分布列的列,优先级别:主键列>唯一约束列>首个数据类型支持作为分布列的列。当同时存在主键列、多个唯一约束列,且未指定表的分布方式时,按照优先级别选取表的分布列后,其余唯一约束列将默认建立全局二级索引。
MySQL模式(即sql_compatibility = 'MYSQL')下,若使用字符类型的分布列,不建议使用不区分大小写的字符序(如:utf8mb4_general_ci、utf8mb4_unicode_ci、utf8mb4_0900_ai_ci),容易造成数据倾斜的问题,无法平均分布。推荐使用utf8mb4_bin字符序。
- 仅当表属性enable_update_distkey设置为on或分布方式为KMEANS,且在约束条件下时,支持更新(UPDATE)分布列的操作。否则,分布列不支持更新(UPDATE)操作。
支持更新(UPDATE)分布列操作的约束如下:
- 仅当相应表属性enable_update_distkey设置为on或分布方式为KMEANS时才支持更新分布列;
- 不支持将UPDATE语句下推DN执行,直接生成PGXC计划,不会根据更新分布列前后值而对计划做改变;
- 不支持带有行级UPDATE TRIGGER的表,否则会执行失败,报错进行提示。对行级INSERT/DELETE TRIGGER不生效,update statement级TRIGGER正常执行;
- 不支持并发更新同一行,先获取锁的执行,DN上后获取锁的按照GUC参数concurrent_dml_mode设置情况进行不同的行为(返回0或报错)。如果报错,则可能存在两种情况:(1)报错提示信息为update distribute column conflict;(2)当获取锁时间超过阈值时,报错提示信息为锁超时。
- 不支持带有全局二级索引(GSI)的表,否则会执行报错;
- 只支持HASH分布和KMEANS分布,不支持LIST/RANGE分布表,否则会执行报错;
- 不支持MERGE INTO和UPSERT更新分布列的行为,否则会执行报错;
- 不支持gtm_free,否则会执行报错;
- 不支持UPDATE RETURNING,否则会执行报错;
- 不支持带有关联表的语句,否则会执行报错;
- 不支持UPDATE + LIMIT,否则会执行报错。
- 如果在建表过程中数据库系统发生故障,系统恢复后可能无法自动清除之前已创建的、大小为0的磁盘文件。此种情况出现概率小,不影响数据库系统的正常运行。
- 使用JDBC时,支持通过PreparedStatement对DEFAULT值进行参数化设置。
- 行存表的表级约束不支持外键。
- 被授予CREATE ANY TABLE权限的用户,可以在public模式和用户模式下创建表。如果想要创建包含serial类型列的表,还需要授予CREATE ANY SEQUENCE创建序列的权限。
- XML类型不能作为主键、外键。
- 在为数据对象增加或者变更ILM策略的时候,如果追加了行级表达式,需要注意行表达式目前只支持白名单中列出的函数。具体白名单函数列表参考行表达式函数白名单。
如果数据库无限创建表,可能会对CN造成以下影响:
- 资源耗尽:每个表都会占用一定的磁盘空间,无限创建表会导致大量的内存和磁盘空间被占用,可能会导致CN的资源耗尽,从而导致系统崩溃或变得不稳定。
- 性能下降:无限创建表会导致大量的I/O操作和CPU计算,数据库的元数据信息将会变得十分庞大,可能会导致CN的性能下降,包括插入、查询、更新和删除等操作,从而导致系统响应变慢或无法满足业务需求。
- 安全问题:过多的表会导致数据库的管理和维护变得困难,无限创建表可能会导致数据泄露或数据丢失等安全问题,数据库的稳定性会降低从而给企业带来不可估量的损失。
因此,对于数据库,应该合理规划表的数量和大小,避免无限创建表,从而保证系统的稳定性、可靠性和安全性。
- 表约束个数不能超过32767个。
语法格式
- 创建表。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
CREATE [ [ GLOBAL | LOCAL ] { TEMPORARY | TEMP } | UNLOGGED ] TABLE [ IF NOT EXISTS ] table_name { ( { column_name data_type [ CHARACTER SET | CHARSET charset ] [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ] | table_constraint | LIKE source_table [ like_option [...] ] } [, ... ] ) | LIKE source_table } [ table_option [ [ , ] ... ] ] [ htap_option ] [ WITH ( {storage_parameter = value} [, ... ] ) ] [ ON COMMIT { PRESERVE ROWS | DELETE ROWS } ] [ ILM ADD POLICY ROW STORE COMPRESS ADVANCED ROW AFTER n { day | month | year } OF NO MODIFICATION [ ON ( EXPR )]] [ TABLESPACE tablespace_name ] [ DISTRIBUTE BY { REPLICATION | HASH ( column_name [, ...] ) | MURMURHASH ( expression ) | KMEANS ( column_name ) distance_type | RANGE ( column_name [, ...] ) { SLICE REFERENCES tablename | ( slice_less_than_item [, ...] ) | ( slice_start_end_item [, ...] ) } | LIST ( column_name [, ...] ) { SLICE REFERENCES tablename | ( slice_values_item [, ...] ) } } ] [ TO { GROUP groupname | NODE ( nodename [, ... ] ) } ];
- 其中table_option为:
{ COMMENT [ = ] 'string' | AUTO_INCREMENT [ = ] value | [ DEFAULT ] CHARACTER SET | CHARSET [ = ] default_charset | [ DEFAULT ] COLLATE [ = ] default_collation | ENGINE [ = ] { InnoDB | 'InnoDB' | "InnoDB" } }
- 其中htap_option为:
{ COLVIEW [ PRIORITY { HIGH | LOW | NONE } ] | NOCOLVIEW [ PRIORITY { HIGH | LOW | NONE } ]}
- 其中列约束column_constraint为:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
[ CONSTRAINT constraint_name ] { NOT NULL | NULL | CHECK ( expression ) | DEFAULT default_expr | ON UPDATE update_expr | GENERATED ALWAYS AS ( generation_expr ) [STORED] | AUTO_INCREMENT | COMMENT 'string' | COLVIEW | NOCOLVIEW | UNIQUE [KEY] index_parameters | PRIMARY KEY index_parameters | ENCRYPTED WITH ( COLUMN_ENCRYPTION_KEY = column_encryption_key, ENCRYPTION_TYPE = encryption_type_value ) | REFERENCES reftable [ ( refcolumn ) ] [ MATCH FULL | MATCH PARTIAL | MATCH SIMPLE ] [ ON DELETE action ] [ ON UPDATE action ] } [ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ]
- 其中列的压缩可选项compress_mode为:
1
{ DELTA | PREFIX | DICTIONARY | NUMSTR | NOCOMPRESS }
- 其中表约束table_constraint为:
1 2 3 4 5 6
[ CONSTRAINT [ constraint_name ] ] { CHECK ( expression ) | UNIQUE [ index_name ] [ USING method ] ( { { column_name [ ( length ) ] | ( expression ) } [ ASC | DESC ] }[, ... ] ) index_parameters | PRIMARY KEY [ USING method ] ( { column_name [ ASC | DESC ] } [, ... ] ) index_parameters [ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ] { [ COMMENT 'string' ] [ ... ] }
- 其中like选项like_option为:
1
{ INCLUDING | EXCLUDING } { DEFAULTS | GENERATED | CONSTRAINTS | INDEXES | STORAGE | COMMENTS | PARTITION | RELOPTIONS | DISTRIBUTION | UPDATE | ILM | ALL }
- 其中索引参数index_parameters为:
1 2
[ WITH ( {storage_parameter = value} [, ... ] ) ] [ USING INDEX TABLESPACE tablespace_name ]
- 其中距离参数distance_type为:
1
{ L2 | COSINE | HAMMING }
- 其中RANGE分布规则
slice_less_than_item为: SLICE name VALUES LESS THAN ({ expression | MAXVALUE } [, ...]) [ DATANODE datanode_name | ( datanode_name_list [, ... ] ) ] slice_start_end_item为: SLICE name { { START ( expression ) END ( expression ) EVERY ( expression ) } | { START ( literal ) END ( { literal | MAXVALUE } ) } | { START ( literal ) } | { END ( { literal | MAXVALUE } ) } }
- 其中LIST分布规则slice_values_item为:
[ ( SLICE name VALUES (expression [, ... ]) [DATANODE datanode_name | ( datanode_name_list )] [, ... ] ) | ( SLICE name VALUES (DEFAULT) [DATANODE datanode_name] | ( datanode_name_list ) ) ]
- 其中update_expr为:
{ CURRENT_TIMESTAMP | LOCALTIMESTAMP | NOW() }
- 其中table_option为:
参数说明
- UNLOGGED
如果指定此关键字,则创建的表为非日志表。在非日志表中写入的数据不会被写入到预写日志中,这样就会比普通表快很多。但是非日志表在冲突、执行操作系统重启、数据库重启、主备切换、切断电源操作或异常关机后会被自动截断,会造成数据丢失的风险。非日志表中的内容也不会被复制到备服务器中。在非日志表中创建的索引也不会被自动记录。
使用场景:非日志表不能保证数据的安全性,用户应该在确保数据已经做好备份的前提下使用,例如系统升级时进行数据的备份。
故障处理:当异常关机等操作导致非日志表上的索引发生数据丢失时,用户应该对发生错误的索引进行重建。
- GLOBAL | LOCAL
创建临时表时可以在TEMP或TEMPORARY前指定GLOBAL或LOCAL关键字。目前这两个关键字的设立,仅是为了兼容SQL标准,实际上无论指定GLOBAL还是LOCAL,GaussDB都会创建本地临时表。
- TEMPORARY | TEMP
如果指定TEMP或TEMPORARY关键字,则创建的表为临时表。临时表只在当前会话可见,本会话结束后会自动删除。因此,在除当前会话连接的CN以外的其他CN故障时,仍然可以在当前会话上创建和使用临时表。由于临时表只在当前会话创建,对于涉及对临时表操作的DDL语句,会产生DDL失败的报错。因此,建议DDL语句中不要对临时表进行操作。TEMP和TEMPORARY等价。
- 临时表通过每个会话独立的以pg_temp开头的SCHEMA来保证只对当前会话可见,因此,不建议用户在日常操作中手动删除以pg_temp,pg_toast_temp开头的SCHEMA。
- 如果建表时不指定TEMPORARY/TEMP关键字,而指定表的SCHEMA为当前会话的pg_temp开头的SCHEMA,则该表会被创建为临时表。
- 临时表只对当前会话可见,因此不支持与\parallel on并行执行一起使用。
- 临时表不支持DN故障或者主备切换。
- IF NOT EXISTS
如果已经存在相同名称的表,不会报出错误,而会发出通知,告知通知该表已存在。
- [ ILM ADD POLICY ROW STORE COMPRESS ADVANCED ROW AFTER n { day | month | year } OF NO MODIFICATION [ ON ( EXPR )]]
创建新表时,可以调用ILM ADD POLICY ROW STORE COMPRESS ADVANCED ROW给行存添加高级压缩策略。比如:CREATE TABLE t1 (a int) ILM ADD POLICY ROW STORE COMPRESS ADVANCED ROW AFTER 3 DAY OF NO MODIFICATION ON (a != 0) 表示创建t1表并添加高级压缩策略:三天未修改并且a != 0的行。
- AFTER n { day | month | year } OF NO MODIFICATION :表示n天/月/年没有修改的行。
- ON ( EXPR ):行级表达式,用于判断行的冷热。
- table_name
要创建的表名。
物化视图的一些处理逻辑会通过表名的前缀来识别是不是物化视图日志表和物化视图关联表。因此,用户不要创建表名以mlog_或matviewmap_为前缀的表,否则会影响此表的一些功能。
- column_name
新表中要创建的字段名。
- data_type
字段的数据类型。
- compress_mode
表字段的压缩选项。该选项指定表字段优先使用的压缩算法。该参数仅支持列存压缩。
取值范围:DELTA、PREFIX、DICTIONARY、NUMSTR、NOCOMPRESS
- CHARACTER SET | CHARSET charset
指定表字段的字符集。单独指定时会将字段的字符序设置为指定的字符集的默认字符序。
仅在MYSQL模式数据库下(即sql_compatibility = 'MYSQL')支持该语法,其他模式数据库不支持。
- COLLATE collation
COLLATE子句指定列的排序规则(该列必须是可排列的数据类型)。如果没有指定,则使用默认的排序规则。排序规则可以使用“SELECT * FROM pg_collation”命令从pg_collation系统表中查询,默认的排序规则为查询结果中以default开始的行。对于MYSQL模式数据库下(即sql_compatibility = 'MYSQL')还支持utf8mb4_bin、utf8mb4_general_ci、utf8mb4_unicode_ci、binary、gbk_chinese_ci、gbk_bin、gb18030_chinese_ci、gb18030_bin字符序。
- 仅字符类型支持指定字符集,指定为binary字符集或字符序实际是将字符类型转化为对应的二进制类型,若类型映射不存在则报错。当前仅有TEXT类型转化为BLOB的映射。
- 除binary字符集和字符序外,当前仅支持指定与数据库编码相同的字符集。
- 未显式指定字段字符集或字符序时,若指定了表的默认字符集或字符序,字段字符集和字符序将从表上继承。若表的默认字符集或字符序不存在,当b_format_behavior_compat_options包含'default_collation'时,字段的字符集和字符序将继承当前数据库的字符集及其对应的默认字符序。
表1 MYSQL模式(即sql_compatibility = 'MYSQL')下支持的字符集和字符序介绍 字符序名称
对应的字符集
描述
utf8mb4_general_ci
utf8mb4(即utf8)
使用通用排序规则,不区分大小写。
utf8mb4_unicode_ci
utf8mb4(即utf8)
使用通用排序规则,不区分大小写。
utf8mb4_bin
utf8mb4(即utf8)
使用二进制排序规则,区分大小写。
binary
binary
使用二进制排序规则。
gbk_chinese_ci
gbk
使用中文语言排序规则。
gbk_bin
gbk
使用二进制排序规则,区分大小写。
gb18030_chinese_ci
gb18030
使用中文语言排序规则。
gb18030_bin
gb18030
使用二进制排序规则,区分大小写。
utf8mb4_0900_ai_ci
utf8mb4
使用UCA (Unicode collation algorithm) 算法规则,不区分大小写。
utf8_general_ci
utf8
使用通用排序规则,不区分大小写。
utf8_bin
utf8
使用二进制排序规则,区分大小写。
- LIKE source_table [ like_option ... ]
LIKE子句声明一个表,新表自动从这个表中继承所有字段名及其数据类型和非空约束,以及声明为serial的缺省表达式。
新表与源表之间在创建动作完毕之后是完全无关的。在源表做的任何修改都不会传播到新表中,并且也不可能在扫描源表的时候包含新表的数据。
被复制的列和约束并不使用相同的名称进行融合。如果明确的指定了相同的名称或者在另外一个LIKE子句中,将会报错。
- 源表上除serial外的字段缺省表达式只有在指定INCLUDING DEFAULTS时,才会复制到新表中。缺省是不包含缺省表达式的,即新表中的所有字段的缺省值都是NULL。
- 如果指定了INCLUDING UPDATE,则源表列的ON UPDATE CURRENT_TIMESTAMP属性会复制到新表列中。默认不复制该属性。
- 源表上的CHECK约束仅在指定INCLUDING CONSTRAINTS时,会复制到新表中,而其他类型的约束永远不会复制到新表中。非空约束总是复制到新表中。此规则同时适用于表约束和列约束。
- 如果指定了INCLUDING INDEXES,则源表上的索引也将在新表上创建,默认不建立索引。
- 如果指定了INCLUDING STORAGE,则源表列的STORAGE设置会复制到新表中,默认情况下不包含STORAGE设置。
- 如果指定了INCLUDING COMMENTS,则源表列、约束和索引的注释会复制到新表中。默认情况下,不复制源表的注释。
- 如果指定了INCLUDING PARTITION,则源表的分区定义会复制到新表中,同时新表将不能再使用PARTITION BY子句。默认情况下,不复制源表的分区定义。
- 如果指定了INCLUDING RELOPTIONS,则源表的存储参数(即源表的WITH子句)会复制到新表中。默认情况下,不复制源表的存储参数。
- 如果指定了INCLUDING DISTRIBUTION,则源表的分布信息会复制到新表中,包括分布类型和分布列,同时新表将不能再使用DISTRIBUTE BY子句。默认情况下,不复制源表的分布信息。对于KMEANS分布的表,不复制源表的中心点信息(PGXC_SLICE),需要重新导入数据并建立中心点。
- 如果指定了INCLUDING ILM,则源表的ILM策略信息会被复制到新表中,如果需要同时复制源表上的分区对象的ILM策略信息,需要同时指定INCLUDING PARTITION。
- INCLUDING ALL包含了INCLUDING DEFAULTS、INCLUDING UPDATE、INCLUDING CONSTRAINTS、INCLUDING INDEXES、INCLUDING STORAGE、INCLUDING COMMENTS、INCLUDING PARTITION、INCLUDING RELOPTIONS、INCLUDING DISTRIBUTION和INCLUDING ILM的内容。
- 如果源表包含serial、bigserial、smallserial类型,或者源表字段的默认值是SEQUENCE,且SEQUENCE属于源表(通过CREATE SEQUENCE ... OWNED BY创建),这些SEQUENCE不会关联到新表中,新表中会重新创建属于自己的SEQUENCE。这和之前版本的处理逻辑不同。如果用户希望源表和新表共享SEQUENCE,需要首先创建一个共享的SEQUENCE(避免使用OWNED BY),并配置为源表字段默认值,这样创建的新表会和源表共享该SEQUENCE。
- 不建议将其他表私有的SEQUENCE配置为源表字段的默认值,尤其是其他表只分布在特定的NodeGroup上,这可能导致CREATE TABLE ... LIKE执行失败。另外,如果源表配置其他表私有的SEQUENCE,当该表删除时SEQUENCE也会连带删除,这样源表的SEQUENCE将不可用。如果用户希望多个表共享SEQUENCE,建议创建共享的SEQUENCE。
- CREATE TABLE table_name LIKE source_table;语法仅在MYSQL模式数据库(即sql_compatibility = 'MYSQL')下,且参数b_format_version值为5.7、b_format_dev_version值为s2时支持。
- 在MYSQL模式数据库下,且参数b_format_version值为5.7、b_format_dev_version值为s2时,不支持指定INCLUDING和EXCLUDING选项,缺省等同于指定INCLUDING ALL。
- AUTO_INCREMENT [ = ] value
这个子句为自动增长列指定一个初始值,value必须为正数,不得超过2127-1。
该子句仅在参数sql_compatibility='MYSQL'时有效。
- COMMENT [ = ] 'string'
- COMMENT [ = ] 'string'子句表示给表添加注释。
- 在column_constraint中的COMMENT 'string'表示给列添加注释。
- 在table_constraint中的COMMENT 'string'表示给主键和唯一键对应的索引添加注释。
- 该子句仅在MYSQL模式数据库(即sql_compatibility = 'MYSQL')下有效。
- 表级注释支持的最大字符串长度为2048字符,列级和索引级注释支持的最大长度为1024字符。
- table_constraint中的COMMENT仅支持主键和唯一键,其他约束不支持。
- ENGINE
MYSQL模式下支持,仅语法适配,且只支持设置InnoDB,无实际效果。
不支持CREATE TABLE table_name LIKE source_table;语法中使用ENGINE语法。
- WITH ( { storage_parameter = value } [, ... ] )
这个子句为表或索引指定一个可选的存储参数。用于表的WITH子句还可以包含OIDS=FALSE表示不分配OID。
使用任意精度类型Numeric定义列时,建议指定精度p以及刻度s。在不指定精度和刻度时,会按输入的显示出来。
参数的详细描述如下所示:
- FILLFACTOR
一个表的填充因子(fillfactor)是一个介于10和100之间的百分数。100(完全填充)是默认值。在Ustore存储引擎下,该值的默认值为92。如果指定了较小的填充因子,INSERT操作仅按照填充因子指定的百分率填充表页。每个页上的剩余空间将用于在该页上更新行,这就使得UPDATE有机会在同一页上放置同一条记录的新版本,这比把新版本放置在其他页上更有效。对于一个从不更新的表将填充因子设为100是最佳选择,但是对于频繁更新的表,选择较小的填充因子则更加合适。
取值范围:10~100
- ORIENTATION
取值范围:
默认值:
若指定表空间为普通表空间,默认值为ROW。
- STORAGE_TYPE
取值范围:
- USTORE,表示表支持Inplace-Update存储引擎。特别需要注意,使用UStore表,必须要开启track_counts和track_activities参数,否则会引起空间膨胀。
- ASTORE,表示表支持Append-Only存储引擎。
默认值:
不指定时,由参数enable_default_ustore_table决定存储引擎方式,默认是Inplace-Update存储。
- INIT_TD
创建UStore表时,指定初始化的TD个数,该参数可以通过ALTER TABLE进行修改。特别需要注意,该参数会影响数据页面存放的单个元组的最大大小,具体换算方法为MAX_TUPLE_SIZE = BLCKSZ - INIT_TD * TD_SIZE,例如用户将INIT_TD数量从4修改为8,单个元组最大大小会减小4 * INIT_TD大小。
取值范围:2~128,默认值为4。
- COMPRESSION
指定表数据的压缩级别,它决定了表数据的压缩比以及压缩时间。一般来讲,压缩级别越高,压缩比也越大,压缩时间也越长;反之亦然。实际压缩比取决于加载的表数据的分布特征。该参数仅支持列存压缩。
取值范围:行存表的有效值为YES/NO
默认值:NO
- COMPRESSLEVEL
指定表数据同一压缩级别下的不同压缩水平,它决定了同一压缩级别下表数据的压缩比以及压缩时间。对同一压缩级别进行了更加详细的划分,为用户选择压缩比和压缩时间提供了更多的空间。总体来讲,此值越大,表示同一压缩级别下压缩比越大,压缩时间越长;反之亦然。
取值范围:0~3
默认值:0
- segment
使用段页式的方式存储。本参数仅支持行存表。不支持1~5号物理文件非法删除破坏场景的防护。
取值范围:on/off
默认值:off
- hashbucket
取值范围:on/off
默认值:off
- 创建hashbucket表时当前database必须绑定到集群默认的node group上。DATABASE绑定group参考ALTER DATABASE。
- 当前版本hashbucket表相关DDL操作性能受限,不建议频繁对hashbucket表进行DDL操作。
- hashbucket表绑定段页式存储,即hashbucket=on隐含segment=on。
- 小表(小于:普通表8M,分区表8M * 分区数量)不建议创建成hashbucket表,顺序扫描性能较普通表劣化2倍。
- parallel_workers
表示创建索引时起的bgworker线程数量,例如2就表示将会起2个bgworker线程并发创建索引。
取值范围:[0,32],int类型,0表示关闭并行建索引。
默认值:不设置该参数,表示未开启并行建索引功能。
- hasuids
取值范围:on/off
默认值:off
- logical_repl_node
分布式复制表逻辑解码时,向CN返回逻辑日志的DN节点名。对于复制表,如用户不指定,则默认为当前表所在node group的第一个节点。对该选项进行RESET操作时,会重置为当前表的第一个节点。
取值范围:字符串
默认值:非复制表默认为空,复制表默认为第一个节点名。
- STAT_STATE
标识该表的统计信息是否被锁定,如果被锁定了,该表的统计信息无法更新。该参数在分布式下无效。
取值范围:locked/unlock
默认值:unlock
- statistic_granularity
记录该表在分析统计信息时的默认partition_mode。partition_mode说明请参见ANALYZE | ANALYSE参数说明。此参数对非分区表设置无效。
取值范围:请参见partition_mode取值范围。
默认值:AUTO
- distribute_accu_rate
用户控制KMEANS分布的表自动重分布的阈值,在集群数据分布准确率下降到阈值以下触发自动重分布。
取值范围:0~1
默认值:0.9
- autovacuum_enabled
取值范围:on/off
默认值:on
- autovacuum_vacuum_threshold
自动清理功能中,指定在该表中触发VACUUM所需的更新或删除的最小元组数(仅对Astore表生效)。
取值范围:0~2147483647
默认值:-1,缺省时与GUC参数autovacuum_vacuum_threshold一致。
- autovacuum_analyze_threshold
自动清理功能中,指定在该表中触发ANALYZE所需的插入、更新或删除的最小元组数。
取值范围:0~2147483647
默认值:-1,缺省时与GUC参数autovacuum_analyze_threshold一致。
- autovacuum_vacuum_scale_factor
自动清理功能中,指定在该表中触发VACUUM所需的插入、更新或删除元组的比例(仅对Astore表生效)。
取值范围:0.0~100.0
默认值:-1,缺省时与GUC参数autovacuum_vacuum_scale_factor一致。
- autovacuum_analyze_scale_factor
自动清理功能中,指定在该表中触发ANALYZE所需的插入、更新或删除元组的比例。
取值范围:0.0~100.0
默认值:-1,缺省时与GUC参数autovacuum_analyze_scale_factor一致。
- autovacuum_freeze_min_age
自动清理功能中,在该表参数指定了一个行版本的最小年龄,超过这个年龄的行才会被冻结。
取值范围:0~1000000000
默认值:-1,缺省时与GUC参数vacuum_freeze_min_age一致。
- autovacuum_freeze_max_age
自动清理功能中,该表pg_class.relfrozenxid字段在超过多少个事务后,就会强制执行VACUUM操作。即使自动清理被禁用,系统也会启动AUTOVACUUM进程。清理操作还允许从pg_clog/子目录中删除旧文件(仅对Astore表生效)。
取值范围:100000~2000000000
默认值:-1,缺省时与GUC参数autovacuum_freeze_max_age一致。
- autovacuum_freeze_table_age
自动清理功能中,该表被标记为不需要自动清理时,将保持不变的时间。(仅对Astore表生效)。
取值范围:0~2000000000
默认值:-1,缺省时与GUC参数vacuum_freeze_table_age一致。
- enable_update_distkey
标记该表是否支持更新(UPDATE)分布列的操作。仅当表的该属性设置为on或分布方式为KMEANS,且在约束条件下时,才支持更新(UPDATE)分布列的操作。否则,分布列不支持更新(UPDATE)操作。
取值范围:on/off
默认值:off
支持更新(UPDATE)分布列操作的约束见本节的注意事项。
- FILLFACTOR
- WITHOUT OIDS
等价于WITH(OIDS=FALSE)的语法。
- ON COMMIT { PRESERVE ROWS | DELETE ROWS }
ON COMMIT选项决定在事务中执行创建临时表操作,当事务提交时,此临时表的后续操作。当前支持PRESERVE ROWS和DELETE ROWS选项。
- PRESERVE ROWS(缺省值):提交时不对临时表做任何操作,临时表及其表数据保持不变。
- DELETE ROWS:提交时删除临时表中数据。
- TABLESPACE tablespace_name
创建新表时指定此关键字,表示新表将要在指定表空间内创建。如果没有声明,将使用默认表空间。
- DISTRIBUTE BY
指定表如何在节点之间分布或者复制。
取值范围:
- REPLICATION:表的每一行存在所有数据节点(DN)中,即每个数据节点都有完整的表数据。
- HASH ( column_name ) :对指定的列进行Hash,通过映射,把数据分布到对应DN。
- MURMURHASH ( diskey_expr ) :对指定的列进行Hash操作,Hash算法指定为MURMURHASH算法,通过映射,把数据分布到对应DN上。diskey_expr可以是单个列名,也可以是•lpad_s(string text, length int [, fill text])函数修饰的列名,使用该函数进行修饰时,只有第一个参数可以为列名,形如lpad_s(a,10,'0')。lpad_s作为分布列表达式时不能省略第三个参数。
- KMEANS(column_name )对指定列进行KMEANS聚类,把数据分布到最近中心点所在的DN。
- RANGE( column_name ) 对指定列按照范围进行映射,把数据分布到对应DN。
- LIST( column_name ) 对指定列按照具体值进行映射,把数据分布到对应DN。
- 对于HASH分布,分布键最多个数和列最多个数一致,最多支持1600个。对于MURMURHASH分布,分布键只支持一列(一个表达式或一个表中的列)。对于RANGE(VALUE LESS THAN)分布和LIST分布,分布键最多支持四列。对于RANGE(START END)分布,分布键只支持一列。
- 只有MURMURHASH分布支持分布列表达式,分布列表达式中只支持•lpad_s(string text, length int [, fill text])函数。
- 对于MURMURHASH分布,有以下约束:
- 不支持stream计划、支持FQS计划和PGXC计划。
- 不支持扩缩容、hashbucket表、GSI,物化视图。
- 两个哈希表做关联,在分布键上有等值关联条件时,目前暂不支持FQS计划。
- MURMURHASH分布表必须指定nodegroup(自定义的nodegroup)且该nodegroup为非installation的nodegroup建表。
- 不支持用CREATE TABLE AS方式建表。
- MURMURHASH分布表的分布键必须含有NOT NULL约束。
- 对于从句是VALUE LESS THAN语法格式的RANGE分布策略。分布规则如下:
- 从插入值的第一列开始比较。
- 如果插入值的第一列小于待插入的分片的当前列的边界值,则直接插入。
- 如果插入值的第一列等于待插入的分片的当前列的边界值,则比较插入值的下一列与待插入的分片的下一列的边界值,如果小于,则直接插入。如果相等,继续比较插入值的下一列与待插入的分片的下一列的边界值,直至小于并插入。
- 如果插入值的所有列大于待插入的分片的所有列的边界值,则比较下一分片。
- 如果RANGE分布表的分片对应多个DN,会计算分布键的hash值,之后在这些DN中用hash值对DN个数取模,重新映射一个DN。详情见示例。
- 如果LIST分布表的分片对应多个DN,对于default分片,会计算分布键的hash值,之后在这些DN中用hash值对DN个数取模,重新映射一个DN。对于非default分片,会使用Round Robin方式,把values列表中的值和DN进行映射。详情见示例。
- RANGE/LIST分布表只支持扩容不支持缩容,slice扩容规则请联系管理员。
- KMEANS分布表只支持以向量类型作为分布列,仅支持单列作为分布键,不支持GSI。当前版本KMEANS分布的表在扩缩容后需手动调用系统函数重新计算中心点和分发(gs_vector_distrib_update_centroids、gs_vector_distrib_redistribute_new_centroids)。
- 对于复制表,存在以下下推充要条件:
- 窗口函数场景:根据不同的窗口函数类型,有不同的下推充要条件,分为四种:
- 无条件支持下推,如RANK系列函数,RATIO_TO_REPORT函数,特点是对于相同的PARTITION BY和ORDER BY值窗口函数值是一样的,不依赖数据的相对顺序。
- 投影列中必须不包含PARTITION BY和ORDER BY字段外的字段或PARTITION BY + ORDER BY字段组成了一个主键时支持下推,如ROW_NUMBER函数/NTILE函数,否则具有相同值时(但其他列值不同),不同DN上会由于相对顺序问题,窗口函数返回的结果不同导致数据不一致。
- offset参数为0时支持下推,对于LAG/LEAD函数,参数为0相当于查询某一列,不依赖数据相对顺序,如果offset大于0,会由于相对顺序不同问题可能具有相同值的不同的元组取到NULL值。
- 参数表达式中的字段必须是PARTITION BY列或ORDER BY列 或者PARTITION BY + ORDER BY字段组成了一个主键时支持下推,如FIRST_VALUE/LAST_VALUE/NTH_VALUE函数。
- 对复制表的查询包含系统列及volatile函数时不进行下推。
- 拼接聚集函数场景:下推充要条件为拼接列等于ORDER BY列或者ORDER BY字段组成了一个主键。
- UPDATE/DELETE语句使用WHERE CURRENT OF cursor_name语法时,不进行下推。
- 窗口函数场景:根据不同的窗口函数类型,有不同的下推充要条件,分为四种:
对于HASH分布,column_name的数据类型必须是以下类型之一:- INTEGER TYPES:TINYINT、SMALLINT、INT、BIGINT、NUMERIC/DECIMAL
- CHARACTER TYPES:CHAR、BPCHAR、VARCHAR、VARCHAR2、NVARCHAR2、TEXT
- DATE/TIME TYPES:DATE、TIME、TIMETZ、TIMESTAMP、TIMESTAMPTZ、INTERVAL、SMALLDATETIME
对于MURMURHASH分布,diskey_expr中的列名的数据类型必须是以下类型之一:对于RANGE(VALUES LESS THAN)/LIST分布,column_name的数据类型必须是以下类型之一:- INTEGER TYPES:TINYINT、SMALLINT、INT、BIGINT、NUMERIC/DECIMAL
- CHARACTER TYPES:CHAR、BPCHAR、VARCHAR、VARCHAR2、NVARCHAR2、TEXT
- DATE/TIME TYPES:DATE、TIMESTAMP、TIMESTAMPTZ
对于RANGE(START END)分布,column_name的数据类型必须是以下类型之一:
- INTEGER TYPES:TINYINT、SMALLINT、INT、BIGINT、NUMERIC/DECIMAL
- DATE/TIME TYPES:DATE、TIMESTAMP、TIMESTAMPTZ
在建表时,选择分布列和分区键可对SQL查询性能产生重大影响。因此,需要根据一定策略选择合适的分布列和分区键。
- 选择合适的分布列
对于采用散列(Hash)方式的数据分布表,一个合适的分布列应将一个表内的数据,均匀分散存储在多个DN内,避免出现数据倾斜现象(即多个DN内数据分布不均)。请按照如下原则判定合适的分布列:
- 判断是否已发生数据倾斜现象。
连接数据库,执行如下语句,查看各DN内元组数目。命令中的斜体部分tablename,请填入待分析的表名。
gaussdb=# SELECT a.count,b.node_name FROM (SELECT count(*) AS count,xc_node_id FROM tablename GROUP BY xc_node_id) a, pgxc_node b WHERE a.xc_node_id=b.node_id ORDER BY a.count DESC;
如果各DN内元组数目相差较大(如相差数倍、数十倍),则表明已发生数据倾斜现象,请按照下面原则调整分布列。
- 重新选择分布列,重新建表。当前不支持通过ALTER TABLE语句调整分布列,因此调整分布列时需要重新建表。
分布列的列值应比较离散,以便数据能够均匀分布到各个DN。例如,考虑选择表的主键为分布列,如在人员信息表中选择身份证号码为分布列。
在满足上面原则的情况下,考虑选择查询中的连接条件为分布列,以便Join任务能够下推到DN中执行,且减少DN之间的通信数据量。
- 判断是否已发生数据倾斜现象。
- 选择合适的分区键
数据分区功能,可根据表的一列或者多列,将要插入表的记录分为若干个范围(这些范围在不同的分区里没有重叠)。然后为每个范围创建一个分区,用来存储相应的数据。
调整分区键,使每次查询结果尽可能存储在相同或者最少的分区内(称为“分区剪枝”),通过获取连续I/O大幅度提升查询性能。
实际业务中,经常将时间作为查询对象的过滤条件,因此,可考虑选择时间列为分区键,键值范围可根据总数据量、一次查询数据量调整。
- RANGE/LIST分布
当没有为RANGE/LIST分布表的分片显示指定DN时,数据库内部为分片分配DN是采用roundrobin的算法。另外,在使用RANGE/LIST分布的场景中,考虑到后续扩容的需要,建议用户在建表时定义尽可能多的分片数,因为如果定义的分片数小于扩容前的DN节点数,数据重分布时则无法落入新的DN节点。需要特别注意的是,由于是由用户自行设计分片规则,在某些极端情况下,扩容也可能无法解决存储空间不足的问题。
- TO { GROUP groupname | NODE ( nodename [, ... ] ) }
TO GROUP指定创建表所在的Node Group。TO NODE主要供内部扩容工具使用,一般用户不应该使用。
- CONSTRAINT [constraint_name]
列约束或表约束的名称。可选的约束子句用于声明约束,新行或者更新的行必须满足这些约束才能成功插入或更新。
定义约束有两种方法:
- 列约束:作为一个列定义的一部分,仅影响该列。
- 表约束:不和某个列绑在一起,可以作用于多个列。
表约束在MYSQL模式数据库下(即sql_compatibility = 'MYSQL')constraint_name为可选项,在其他模式数据库下,必须加上constraint_name。
- NOT NULL
字段值不允许为NULL。
- NULL
字段值允许为NULL ,这是缺省值。
这个子句只是为和非标准SQL数据库兼容。不建议使用。
- CHECK ( expression )
CHECK约束声明一个布尔表达式,每次插入或者更新的行必须使表达式结果为真或未知才能成功,否则会抛出一个异常并且不会修改数据库。
声明为字段约束的检查约束应该只引用该字段的数值,而在表约束里出现的表达式可以引用多个字段。
expression表达式中,如果存在“<>NULL”或“!=NULL”,这种写法是无效的,需要写成“IS NOT NULL”。
- DEFAULT default_expr
DEFAULT子句给字段指定缺省值。该数值可以是任何不含变量的表达式(不允许使用子查询和对本表中的其他字段的交叉引用)。缺省表达式的数据类型必须和字段类型匹配。
缺省表达式将被用于任何未声明该字段数值的插入操作。如果没有指定缺省值则缺省值为NULL 。
- ON UPDATE update_expr
ON UPDATE子句为字段的一种属性约束。
当对表中某元组执行UPDATE操作时,若更新字段的新值和表中旧值不相同,则表中该元组上具有该属性且不在更新字段内的字段值自动更新为当前时间戳;若更新字段的新值和表中旧值相同,则表中该元组上具有该属性且不在更新字段内的字段值不变,保持原有值;若具有该属性的字段在更新字段内,则对应这些字段值直接按指定更新的值更新。
- 该属性支持在MYSQL模式数据库中的5.7版本下指定(即sql_compatibility = 'MYSQL'、b_format_version='5.7'、b_format_dev_version='s1')和PG模式数据库模式中指定(升级观察期间不支持该语法)。
- 语法上update_expr支持CURRENT_TIMESTAMP 、LOCALTIMESTAMP 、NOW()三种关键字,也支持关键字带括号指定或不指定精度。三种关键字互为同义词,属性效果相同。例如:ON UPDATE CURRENT_TIMESTAMP()、ON UPDATE CURRENT_TIMESTAMP(5)、ON UPDATE LOCALTIMESTAMP()、ON UPDATE LOCALTIMESTAMP(6)等。不带括号或空括号时精度为0,其中NOW关键字不支持不带括号。PG兼容模式下不支持ON UPDATE CURRENT_TIMESTAMP()、ON UPDATE LOCALTIMESTAMP()和ON UPDATE NOW(5)。
- 该属性仅支持在如下类型的列上指定:timestamp、datetime、date、time without time zone、smalldatetime、abstime。
- CREATE TABLE AS语法不会继承该列属性。
- CREATE TABLE LIKE语法可通过INCLUDING UPDATE或EXCLUDING UPDATE来选择继承或排除该约束,PG兼容模式下只支持EXCLUDING UPDATE选项排除该约束。新增INCLUDING ILM选项复制旧表的ilm策略信息,结合INCLUDING PARTITION选项使用可以复制旧表上分区对象的策略信息。
- 该属性指定的精度和对应列上类型指定的精度可以不一致,通过该属性更新字段值后显示结果按最小精度显示。例如:CREATE TABLE t1 (col1 timestamp(6) ON UPDATE CURRENT_TIMESTAMP(3)); 若UPDATE语法触发该属性生效,则本次更新后col1字段值小数位显示3位。
- 该属性和生成列约束不能同时指定同一列。
- 分区表中的分区键不支持指定该属性。
- 分布式场景中,分布列和主键不支持指定该属性。
- AUTO_INCREMENT
该关键字将字段指定为自动增长列。
目前自动增长列默认为本地自动增长列,在各个DN上独立增长,互不影响,自增值全局不唯一。
若在插入时不指定此列的值(或指定此列的值为0、NULL、DEFAULT),此列的值将由自增计数器自动增长得到。
若插入或更新此列为一个大于当前自增计数器的值,执行成功后,自增计数器将刷新为此值。
自增初始值由AUTO_INCREMENT [ = ] value子句设置,若不设置,默认为1。
- 仅在参数sql_compatibility='MYSQL'时可以指定自动增长列。
- 自动增长列数据类型只能为整数类型、4字节或8字节浮点类型、布尔类型。
- 每个表只能有一个自动增长列。
- 本地自动增长列建议为索引(非全局二级索引)的第一个字段,否则含有自动增长列的表进行某些操作时会产生错误,例如:ALTERT TABLE EXCHANGE PARTITION。
- 自动增长列不能指定DEFAULT缺省值。
- CHECK约束的表达式中不能含有自动增长列。
- 可以指定自动增长列允许NULL,若不指定,默认自动增长列含有NOT NULL约束。
- 含有本地自动增长列的表创建时,会在每个DN上创建一个依赖于此列的本地序列作为自增计数器,不允许通过序列相关功能修改或删除此序列,可以查看序列的值。
- 自增计数器自增和刷新操作不会回滚。
- 数据插入到表之前,0/NULL会触发自增。数据插入或更新到表之后,会更新自增计数器。如果在自增之后出现了报错,导致数据没有插入或更新到表中,此时自增计数器不会回滚。后续插入语句基于自增计数器触发自增,会出现表中自动增长列的值不连续的情况。
- 批量插入或导入预留自增缓存值也有可能产生自动增长列的值不连续的情况,详见auto_increment_cache参数说明。
- 自动增长列不支持作为分布列。
- UNIQUE [KEY] index_parameters
UNIQUE约束表示表里的一个字段或多个字段的组合必须在全表范围内唯一。
对于唯一约束,NULL被认为是互不相等的。
UNIQUE KEY仅在MYSQL模式数据库下(即sql_compatibility = 'MYSQL')支持使用,与UNIQUE语义相同。
- UNIQUE [ index_name ][ USING method ] ( { {column_name | ( expression ) } [ ASC | DESC ] }[, ... ] ) index_parameters
UNIQUE约束表示表里的一个字段或多个字段的组合必须在全表范围内唯一。
对于唯一约束,NULL被认为是互不相等的。
index_name为索引名。
- index_name仅在MYSQL模式数据库下(即sql_compatibility = 'MYSQL')支持,其他模式数据库下不支持。
- 对于唯一键约束,constraint_name和index_name同时指定时,索引名为index_name。
- PRIMARY KEY index_parameters
PRIMARY KEY [ USING method ] ( { column_name [ ASC | DESC ] } [, ... ] ) index_parameters
主键约束声明表中的一个或者多个字段只能包含唯一的非NULL值。
一个表只能声明一个主键。
- REFERENCES
当前版本暂不支持REFERENCES子句。
- USING method
指定创建索引的方法。
取值范围请参见参数说明中的USING method。
- USING method仅在MYSQL兼容模式数据库下(即sql_compatibility = 'MYSQL')支持,其他模式数据库下不支持。
- 在MYSQL模式下,未指定USING method时,对于ASTORE的存储方式,默认索引方法为btree;对于USTORE的存储方式,默认索引方法为ubtree。
- 对于默认建立全局二级索引的约束,由于全局二级索引底层使用ubtree存储,即使用户指定存储方式为btree,底层也会建立为ubtree。
- 当表的存储方式为USTORE时,SQL语句中约束指定为using btree,底层会自动将约束建立为using ubtree。
- ASC | DESC
ASC表示指定按升序排序(默认)。DESC指定按降序排序。
ASC | DESC只在MYSQL模式数据库下(即sql_compatibility = 'MYSQL')支持,其他模式数据库不支持。
- expression
创建一个基于该表的一个或多个字段的表达式索引约束,必须写在圆括弧中。
UNIQUE约束中的表达式索引只在MYSQL模式数据库下支持(即sql_compatibility = 'MYSQL'),其他模式数据库不支持。
- DEFERRABLE | NOT DEFERRABLE
这两个关键字设置该约束是否可推迟。一个不可推迟的约束将在每条命令之后马上检查。可推迟约束可以推迟到事务结尾使用SET CONSTRAINTS命令检查。缺省是NOT DEFERRABLE。目前,UNIQUE约束和主键约束可以接受这个子句。所有其他约束类型都是不可推迟的。
- INITIALLY IMMEDIATE | INITIALLY DEFERRED
如果约束是可推迟的,则这个子句声明检查约束的缺省时间。
- 如果约束是INITIALLY IMMEDIATE(缺省),则在每条语句执行之后就立即检查它。
- 如果约束是INITIALLY DEFERRED ,则只有在事务结尾才检查它。
约束检查的时间可以用SET CONSTRAINTS命令修改。
- USING INDEX TABLESPACE tablespace_name
为UNIQUE或PRIMARY KEY约束相关的索引声明一个表空间。如果没有提供这个子句,这个索引将在default_tablespace中创建,如果default_tablespace为空,将使用数据库的缺省表空间。
- ENCRYPTION_TYPE = encryption_type_value
为ENCRYPTED WITH约束中的加密类型,encryption_type_value的值为[ DETERMINISTIC | RANDOMIZED ]。
- [DEFAULT] CHARACTER SET | CHARSET [ = ] default_charset
指定表的默认字符集,单独指定时会将表的默认字符序设置为指定的字符集的默认字符序。
仅在MYSQL模式数据库下(即sql_compatibility = 'MYSQL')支持该语法。
- [DEFAULT] COLLATE [ = ] default_collation
指定表的默认字符序,单独指定时会将表的默认字符集设置为指定的字符序对应的字符集。
仅在MYSQL模式数据库下(即sql_compatibility = 'MYSQL')支持该语法。字符序参见表1。
表的字符集或字符序未显式指定时,若指定了模式的默认字符集或字符序,表字符集和字符序将从模式上继承。若模式的默认字符集或字符序不存在,当b_format_behavior_compat_options包含'default_collation'时,表的字符集和字符序将继承当前数据库的字符集及其对应的默认字符序。
建表示例
- 创建普通表
gaussdb=# CREATE TABLE tbl_test1( id int, name varchar(50), province varchar (60), --省 country varchar (60) DEFAULT 'China' --国籍 ); gaussdb=# DROP TABLE tbl_test1;
- WITH子句为表或者索引增加存储参数
--建表指定填充因子。 gaussdb=# CREATE TABLE tbl_test2( id int, name varchar(50), province varchar (60), --省 country varchar (60) DEFAULT 'China' --国籍 ) WITH (FILLFACTOR = 70); --建表指定存储引擎。 gaussdb=# CREATE TABLE tbl_test3( id int, name varchar(50), province varchar (60), --省 country varchar (60) DEFAULT 'China' --国籍 ) WITH (STORAGE_TYPE = ASTORE); --删除。 gaussdb=# DROP TABLE tbl_test2; gaussdb=# DROP TABLE tbl_test3;
- 临时表
--创建临时表,并指定提交事务时删除该临时表数据。 gaussdb=# CREATE TEMPORARY TABLE test_t2( id CHAR(7), name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China' --国籍 ) ON COMMIT DELETE ROWS; gaussdb=# DROP TABLE test_t2;
- 建表时指定字符集字符序
--创建前置数据库。 gaussdb=# CREATE DATABASE testdb1 ENCODING = 'UTF8'; gaussdb=# \c testdb1 --创建t1表,设置t1的默认字符集为utf8mb4,默认字符序为utf8mb4_bin,设置c1字段为表的默认字符集字符序,设置c2字段的字符集为utf8mb4,字符序为utf8mb4_unicode_ci。 testdb1=# CREATE TABLE t1(c1 text, c2 text charset utf8mb4 collate utf8mb4_unicode_ci) charset utf8mb4 collate utf8mb4_bin; --删除。 testdb1=# DROP TABLE t1; testdb1=# \c postgres gaussdb=# DROP DATABASE testdb1;
- IF NOT EXISTS关键字
使用该关键字,表不存在时报NOTICE;如不用该关键字,则报ERROR。两种情况下表都不会创建成功。
gaussdb=# CREATE TABLE test_t3(id INT); --创建一个已经存在同名的表test_t3。 gaussdb=# CREATE TABLE test_t3(id INT); ERROR: Relation test_t3 already exists in schema public. DETAIL: Creating new table with existing name in the same schema. --使用IF NOT EXISTS关键字。 gaussdb=# CREATE TABLE IF NOT EXISTS test_t3(id INT); NOTICE: Relation test_t3 already exists, skipping. CREATE TABLE --删除表。 gaussdb=# DROP TABLE test_t3;
- 建表时指定表空间
--创建表空间。 gaussdb=# CREATE TABLESPACE ds_tbs1 RELATIVE LOCATION 'tablespace/tablespace_1'; --创建表时,指定表空间。 gaussdb=# CREATE TABLE test(id CHAR(7), name VARCHAR(20)) TABLESPACE ds_tbs1; --删除表和表空间。 gaussdb=# DROP TABLE test; gaussdb=# DROP TABLESPACE ds_tbs1;
- 建表时指定AUTO_INCREMENT自增列
--本地自增列不作为分布列,每个DN从10开始自增(根据实际情况修改DATANODE名字,SELECT node_name FROM pgxc_node WHERE node_type = 'D';)。 gaussdb=# CREATE TABLE local_autoinc(col int AUTO_INCREMENT, col1 int) AUTO_INCREMENT = 10 DISTRIBUTE BY LIST(col1)( SLICE s1 VALUES (1) DATANODE datanode1, SLICE s2 VALUES (2) DATANODE datanode2 ); --建议自增列作为索引首列,创建一个索引。 gaussdb=# CREATE INDEX local_autoinc_ai ON local_autoinc(col); --数据分布到DN1上,NULL触发自增,自增值为10。 gaussdb=# INSERT INTO local_autoinc(col, col1) VALUES(NULL,1); --数据分布到DN2上,0触发自增,自增值为10。 gaussdb=# INSERT INTO local_autoinc(col, col1) VALUES(1 - 1,2); --数据分布到DN1上,100不触发自增,插入成功后,自增计数更新为100。 gaussdb=# INSERT INTO local_autoinc(col, col1) VALUES(100,1); --数据分布到DN1上,0触发自增,自增值为101。 gaussdb=# INSERT INTO local_autoinc(col, col1) VALUES(0,1); --数据分布到DN2上,DEFAULT触发自增,自增值为11。 gaussdb=# INSERT INTO local_autoinc(col, col1) VALUES(DEFAULT,2); gaussdb=# SELECT col,col1 FROM local_autoinc ORDER BY 2,1; col | col1 -----+------ 10 | 1 100 | 1 101 | 1 10 | 2 11 | 2 (5 rows) --删除。 gaussdb=# DROP TABLE local_autoinc;
- CREATE TABLE ... LIKE建表
--创建源表t1。 gaussdb=# CREATE TABLE t1(col INT); CREATE TABLE gaussdb=# \d t1 Table "public.t1" Column | Type | Modifiers --------+---------+----------- col | integer | --创建目标表t2。 gaussdb=# CREATE TABLE t2(LIKE t1); CREATE TABLE gaussdb=# \d t2 Table "public.t2" Column | Type | Modifiers --------+---------+----------- col | integer | --删除。 gaussdb=# DROP TABLE t1,t2;
建表添加约束示例
- 非空约束
非空约束的字段,如果在添加数据时没有指定值,就会报错。可以为表中多个字段添加非空约束。
--建表并给id字段添加非空约束。 gaussdb=# CREATE TABLE test_t4( id CHAR(7) NOT NULL, name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China' --国籍 ); --插入数据时,如果不指定id的值或者id为NULL,会触发非空约束,导致插入失败。 gaussdb=# INSERT INTO test_t4 (name,province) VALUES ('scott','Shanghai'); ERROR: Null value in column id violates not-null constraint. DETAIL: Failing row contains (null, scott, Shanghai, China). --删除表。 gaussdb=# DROP TABLE test_t4;
- 唯一约束
关键字UNIQUE给字段添加一个唯一约束,插入数据时该字段如有重复则触发约束,多个NULL不算重复,添加唯一约束时,会自动增加一个唯一索引。可以为表中多个字段添加唯一约束。
--建表添加唯一约束。 gaussdb=# CREATE TABLE test_t5( id CHAR(7) UNIQUE USING INDEX TABLESPACE pg_default, name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China' --国籍 ); --也可以用如下写法,为唯一约束命名,以及为多个字段添加约束。 gaussdb=# CREATE TABLE test_t6( id CHAR(7), name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China', --国籍 CONSTRAINT unq_test_id UNIQUE (id,name) );
--插入id重复的数据,触发约束,导致插入失败。 gaussdb=# INSERT INTO test_t5(id) VALUES('0000010'); INSERT 0 1 gaussdb=# INSERT INTO test_t5(id) VALUES('0000010'); ERROR: Duplicate key value violates unique constraint "test_t5_id_key". DETAIL: Key (id)=(0000010) already exists.
--多次插入id是NULL的数据不会触发约束。 gaussdb=# INSERT INTO test_t5(id) VALUES (NULL); INSERT 0 1 gaussdb=# INSERT INTO test_t5(id) VALUES (NULL); INSERT 0 1 --删除表。 gaussdb=# DROP TABLE test_t5; gaussdb=# DROP TABLE test_t6;
- 主键约束
关键字PRIMARY KEY给字段添加唯一约束,要求字段唯一且不为空。添加主键约束时自动为该表创建唯一索引,也会为该字段自动增加一个非空约束。
每个表里面只能定义一个主键约束,不能定义多个。
--建表添加主键约束。 gaussdb=# CREATE TABLE test_t6( id CHAR(7) PRIMARY KEY, name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China' --国籍 ); gaussdb=# INSERT INTO test_t6 (id,name,province) VALUES ('0000001','july','Beijing'); --也可以用如下写法,人工为唯一约束命名,以及为多个字段添加约束。 gaussdb=# CREATE TABLE test_t7( id CHAR(7), name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China', --国籍 CONSTRAINT pk_test_t6_id PRIMARY KEY (id,name) );
--插入id为NULL的数据,触发约束。 gaussdb=# INSERT INTO test_t6 (id,name,province) VALUES (NULL,'july','Beijing'); ERROR: Null value in column id violates not-null constraint. DETAIL: Failing row contains (null, july, Beijing, China). --插入id重复的数据,触发约束。 gaussdb=# INSERT INTO test_t6 (id,name,province) VALUES ('0000001','ben','Shanghai'); ERROR: Duplicate key value violates unique constraint "test_t6_pkey" DETAIL: Key (id)=(0000001) already exists.
--删除表。 gaussdb=# DROP TABLE test_t6; gaussdb=# DROP TABLE test_t7;
- 检查约束
关键字CHECK给字段添加检查约束,在检查约束中必须引用表中的一个或多个字段,并且表达式返回结果必须是一个布尔值。在表达式中不能包含子查询。对同一个字段可以同时定义检查约束和非空约束。
--建表,添加检查约束。 gaussdb=# CREATE TABLE test_t8 ( id CHAR(7), name VARCHAR(20), age INT CHECK(age > 0 AND age < 150) ); --也可以使用如下SQL,人工为检查约束命名以及为一个或者多个字段添加检查约束。 gaussdb=# CREATE TABLE test_t9 ( id CHAR(7), name VARCHAR(20), age INT, CONSTRAINT chek_test_t8_age CHECK(age > 0 AND age < 150) );
--插入不符合表达式的值,会触发检查约束导致插入失败。 gaussdb=# INSERT INTO test_t8 (id,name,age) VALUES ('0000007','scott',200); ERROR: New row for relation test_t8 violates check constraint test_t8_age_check. DETAIL: N/A
--删除表。 gaussdb=# DROP TABLE test_t8; gaussdb=# DROP TABLE test_t9;
表数据分布示例
- REPLICATION
gaussdb=# CREATE TABLE test_replication( id CHAR(7), name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China' --国籍 )DISTRIBUTE BY REPLICATION; --查询表信息。 gaussdb=# \d+ test_replication Table "public.test_replication" Column | Type | Modifiers | Storage | Stats target | Description ----------+-----------------------+------------------------------------+----------+--------------+------------- id | character(7) | | extended | | name | character varying(20) | | extended | | province | character varying(60) | | extended | | country | character varying(30) | default 'China'::character varying | extended | | Has OIDs: no Distribute By: REPLICATION Location Nodes: ALL DATANODES Options: orientation=row, logical_repl_node=-1, compression=no, storage_type=USTORE, segment=off --删除。 gaussdb=# DROP TABLE test_replication;
- HASH
--定义一个表,使用HASH分布。 gaussdb=# CREATE TABLE test_hash( id CHAR(7), name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China' --国籍 )DISTRIBUTE BY HASH(id); --插入数据。 gaussdb=# INSERT INTO test_hash VALUES ('0000001', 'Bob', 'Shanghai', 'China'), ('0000002', 'Jack', 'Beijing', 'China'), ('0000003', 'Scott', 'Beijing', 'China');
--查看数据分布情况。 gaussdb=# SELECT a.count,b.node_name FROM (SELECT COUNT(*) AS count, xc_node_id FROM test_hash GROUP BY xc_node_id) a, pgxc_node b WHERE a.xc_node_id=b.node_id ORDER BY a.count DESC; count | node_name -------+------------------- 2 | dn_6001_6002_6003 1 | dn_6004_6005_6006
--删除表。 gaussdb=# DROP TABLE test_hash;
- MURMURHASH
--测试环境包含1个CN和6个DN。 --创建NODEGROUP,NODEGROUP中的DN名字可以通过语句SELECT node_name FROM PGXC_NODE WHERE node_type = 'D';查询,查询的结果按需替换CREATE NODE GROUP语句中WITH后的DN名。 gaussdb=# CREATE NODE GROUP NG1 WITH(datanode1, datanode2, datanode3, datanode4, datanode5, datanode6); --定义一个表,使用MURMURHASH分布。 gaussdb=# CREATE TABLE test_murmurhash1 (a int NOT NULL, b int) DISTRIBUTE BY MURMURHASH(a) TO GROUP NG1; gaussdb=# CREATE TABLE test_murmurhash2 (a int NOT NULL, b int) DISTRIBUTE BY MURMURHASH(lpad_s(a,10,'0')) TO GROUP NG1; --插入数据。 gaussdb=# INSERT INTO test_murmurhash1 VALUES(0,1); gaussdb=# INSERT INTO test_murmurhash2 VALUES(1,2); --查询数据。 gaussdb=# SELECT * FROM test_murmurhash1; a | b ---+--- 0 | 1 (1 row) gaussdb=# SELECT * FROM test_murmurhash2; a | b ---+--- 1 | 2 (1 row) --删除表。 gaussdb=# DROP TABLE test_murmurhash1; gaussdb=# DROP TABLE test_murmurhash2; --删除NODE GROUP。 gaussdb=# DROP NODE GROUP NG1;
- RANGE
--定义一个表,使用RANGE分布(需要根据实际情况修改dn名字,查询dn节点名可以通过语句SELECT node_name FROM PGXC_NODE WHERE node_type = 'D';查询)。 gaussdb=# CREATE TABLE test_range( id INT, name VARCHAR(20), province VARCHAR(60), --省 country VARCHAR(30) DEFAULT 'China' --国籍 )DISTRIBUTE BY RANGE(id)( SLICE s1 VALUES LESS THAN (100) DATANODE dn_6001_6002_6003, SLICE s2 VALUES LESS THAN (200) DATANODE dn_6004_6005_6006, SLICE s3 VALUES LESS THAN (MAXVALUE) DATANODE dn_6007_6008_6009 ); --插入数据。 gaussdb=# INSERT INTO test_range VALUES (52, 'Bob', 'Beijing', 'China'); gaussdb=# INSERT INTO test_range VALUES (100, 'Ben', 'Shanghai', 'China'); gaussdb=# INSERT INTO test_range VALUES (150, 'Scott', 'Guangzhou', 'China'); gaussdb=# INSERT INTO test_range VALUES (300, 'Jordan', 'Beijing', 'China');
--查看数据分布情况。 gaussdb=# SELECT a.count,b.node_name FROM (SELECT COUNT(*) AS count, xc_node_id FROM test_range GROUP BY xc_node_id) a, pgxc_node b WHERE a.xc_node_id=b.node_id ORDER BY a.count DESC; count | node_name -------+------------------- 2 | dn_6004_6005_6006 1 | dn_6001_6002_6003 1 | dn_6007_6008_6009 (3 rows)
--查询各dn上存储的数据。 gaussdb=# SELECT b.node_name, a.* FROM (SELECT *, xc_node_id FROM test_range) a, pgxc_node b WHERE a.xc_node_id=b.node_id order by node_name; node_name | id | name | province | country | xc_node_id -------------------+-----+--------+-----------+---------+------------- dn_6001_6002_6003 | 52 | Bob | Beijing | China | -1072999043 dn_6004_6005_6006 | 100 | Ben | Shanghai | China | -564789568 dn_6004_6005_6006 | 150 | Scott | Guangzhou | China | -564789568 dn_6007_6008_6009 | 300 | Jordan | Beijing | China | 1532339558 (4 rows)
--删除表。 gaussdb=# DROP TABLE test_range;
- LIST
--定义一个表,使用LIST分布(需要根据实际情况修改dn名字,查询dn节点名可以通过语句SELECT node_name FROM PGXC_NODE WHERE node_type = 'D';查询)。 gaussdb=# CREATE TABLE test_list( id INT, name VARCHAR(20), country VARCHAR(30) DEFAULT 'China' --国籍 )DISTRIBUTE BY LIST(country)( SLICE s1 VALUES ('China') DATANODE dn_6001_6002_6003, SLICE s2 VALUES ('USA') DATANODE dn_6004_6005_6006, SLICE s3 VALUES (DEFAULT) DATANODE dn_6007_6008_6009 ); --插入数据。 gaussdb=# INSERT INTO test_list VALUES (1,'Scott','China'); gaussdb=# INSERT INTO test_list VALUES (2,'Henry','USA'); gaussdb=# INSERT INTO test_list VALUES (3,'Michael','France'); gaussdb=# INSERT INTO test_list VALUES (4,'Jack','UK');
--查询各dn上存储的数据。 gaussdb=# SELECT b.node_name, a.* FROM (SELECT *, xc_node_id FROM test_list) a, pgxc_node b WHERE a.xc_node_id=b.node_id order by node_name; node_name | id | name | country | xc_node_id -------------------+----+---------+--------+------------- dn_6001_6002_6003 | 1 | Scott | China | -1072999043 dn_6004_6005_6006 | 2 | Henry | USA | -564789568 dn_6007_6008_6009 | 3 | Michael | France | 1532339558 dn_6007_6008_6009 | 4 | Jack | UK | 1532339558 (4 rows)
--删除表。 gaussdb=# DROP TABLE test_list;
优化建议
- UNLOGGED
- UNLOGGED表和表上的索引因为数据写入时不通过WAL日志机制,写入速度远高于普通表。因此,可以用于缓冲存储复杂查询的中间结果集,增强复杂查询的性能。
- UNLOGGED表无主备机制,在系统故障或异常断点等情况下,会有数据丢失风险,因此,不可用来存储基础数据。
- TEMPORARY | TEMP
- 临时表只在当前会话可见,会话结束后会自动删除。
- 除了当前CN外,其他CN对于该临时表不可见。
- LIKE
- 新表自动从这个表中继承所有字段名及其数据类型和非空约束,新表与源表之间在创建动作完毕之后是完全无关的。
- LIKE INCLUDING DEFAULTS
- 源表上的字段缺省表达式只有在指定INCLUDING DEFAULTS时,才会复制到新表中。缺省是不包含缺省表达式的,即新表中的所有字段的缺省值都是NULL。
- LIKE INCLUDING CONSTRAINTS
- 源表上的CHECK约束仅在指定INCLUDING CONSTRAINTS时,会复制到新表中,而其他类型的约束永远不会复制到新表中。非空约束总是复制到新表中。此规则同时适用于表约束和列约束。
- LIKE INCLUDING INDEXES
- 如果指定了INCLUDING INDEXES,则源表上的索引也将在新表上创建,默认不建立索引。
- LIKE INCLUDING STORAGE
- 如果指定了INCLUDING STORAGE,则复制列的STORAGE设置会复制到新表中,默认情况下不包含STORAGE设置。
- LIKE INCLUDING COMMENTS
- 如果指定了INCLUDING COMMENTS,则源表列、约束和索引的注释会复制到新表中。默认情况下,不复制源表的注释。
- LIKE INCLUDING PARTITION
- 如果指定了INCLUDING PARTITION,则源表的分区定义会复制到新表中,同时新表将不能再使用PARTITION BY子句。默认情况下,不复制源表的分区定义。
- LIKE INCLUDING RELOPTIONS
- 如果指定了INCLUDING RELOPTIONS,则源表的存储参数(即源表的WITH子句)会复制到新表中。默认情况下,不复制源表的存储参数。
- LIKE INCLUDING DISTRIBUTION
- 如果指定了INCLUDING DISTRIBUTION,则源表的分布信息会复制到新表中,包括分布类型和分布列,同时新表将不能再使用DISTRIBUTE BY子句。默认情况下,不复制源表的分布信息。
- LIKE INCLUDING ALL
- INCLUDING ALL包含了INCLUDING DEFAULTS、INCLUDING CONSTRAINTS、INCLUDING INDEXES、INCLUDING STORAGE、INCLUDING COMMENTS、INCLUDING PARTITION、INCLUDING RELOPTIONS、INCLUDING DISTRIBUTION和INCLUDING ILM的内容。
- ORIENTATION ROW
- 创建行存表,行存储适合于OLTP业务,此类型的表上交互事务比较多,一次交互会涉及表中的多个列,用行存查询效率较高。
- DISTRIBUTE BY
- 事实表或者数据量较大的维度表建议创建为分布表。对指定的列进行Hash,通过映射,把数据分布到指定DN。语法为:DISTRIBUTE BY HASH(column_name)。
- 数据量较小的维度表建议创建为复制表。表的每条记录存在所有数据节点(DN)中,即每个数据节点都有完整的表数据。语法为: DISTRIBUTE BY REPLICATION。