更新时间:2022-10-27 GMT+08:00
分享

CREATE TABLE AS

功能描述

根据查询结果创建表。

CREATE TABLE AS创建一个表并且用来自SELECT命令的结果填充该表。该表的字段和SELECT输出字段的名字及数据类型相关。不过用户可以通过明确地给出一个字段名字列表来覆盖SELECT输出字段的名字。

CREATE TABLE AS对源表进行一次查询,然后将数据写入新表中,而查询视图结果会根据源表的变化而有所改变。相比之下,每次做查询的时候,视图都重新计算定义它的SELECT语句。

注意事项

  • 分区表不能采用此方式进行创建。
  • 如果在建表过程中数据库系统发生故障,系统恢复后可能无法自动清除之前已创建的、大小非0的磁盘文件。此种情况出现概率小,不影响数据库系统的正常运行。

语法格式

1
2
3
4
5
6
7
8
9
CREATE [ UNLOGGED ] TABLE table_name
    [ (column_name [, ...] ) ]
    [ WITH ( {storage_parameter = value} [, ... ] ) ]
    [ COMPRESS | NOCOMPRESS ]
    
    [ DISTRIBUTE BY { REPLICATION | { [HASH ] ( column_name ) } } ]
    
    AS query
    [ WITH [ NO ] DATA ];

参数说明

  • UNLOGGED

    指定表为非日志表。在非日志表中写入的数据不会被写入到预写日志中,这样就会比普通表快很多。但是,它也是不安全的,非日志表在冲突或异常关机后会被自动删截。非日志表中的内容也不会被复制到备用服务器中。在该类表中创建的索引也不会被自动记录。

    • 使用场景:非日志表不能保证数据的安全性,用户应该在确保数据已经做好备份的前提下使用,例如系统升级时进行数据的备份。
    • 故障处理:当异常关机等操作导致非日志表上的索引发生数据丢失时,用户应该对发生错误的索引进行重建。
  • table_name

    要创建的表名。

    取值范围:字符串,要符合标识符的命名规范。

  • column_name

    新表中要创建的字段名。

    取值范围:字符串,要符合标识符的命名规范。

  • WITH ( storage_parameter [= value] [, ... ] )

    这个子句为表或索引指定一个可选的存储参数。参数的详细说明如下所示。

    • FILLFACTOR

      一个表的填充因子(fillfactor)是一个介于10和100之间的百分数。100(完全填充)是默认值。如果指定了较小的填充因子,INSERT操作仅按照填充因子指定的百分率填充表页。每个页上的剩余空间将用于在该页上更新行,这就使得UPDATE有机会在同一页上放置同一条记录的新版本,这比把新版本放置在其他页上更有效。对于一个从不更新的表将填充因子设为100是合适的选择,但是对于频繁更新的表,选择较小的填充因子则更加合适。该参数只对行存表有效。

      取值范围:10~100

    • ORIENTATION

      取值范围:

      COLUMN:表的数据将以列式存储。

      ROW(缺省值):表的数据将以行式存储。

    • COMPRESSION

      指定表数据的压缩级别,它决定了表数据的压缩比以及压缩时间。一般来讲,压缩级别越高,压缩比也越大,压缩时间也越长;反之亦然。实际压缩比取决于加载的表数据的分布特征。

      取值范围:

      列存表的有效值为YES/NO和LOW/MIDDLE/HIGH,默认值为LOW。

      行存表的有效值为YES/NO,默认值为NO。

      行存表压缩功能暂未商用,如需使用请联系技术支持工程师。

    • MAX_BATCHROW

      指定了在数据加载过程中一个存储单元可以容纳记录的最大数目。该参数只对列存表有效。

      取值范围:10000~60000

      默认值:60000

    • PARTIAL_CLUSTER_ROWS

      指定了在数据加载过程中进行将局部聚簇存储的记录数目。该参数只对列存表有效。

      取值范围:600000~2147483647

    • enable_delta

      指定了在列存表是否开启delta表。该参数只对列存表有效。

      默认值:off

    • COLVERSION

      指定列存存储格式的版本,支持不同存储格式版本之间的切换。

      取值范围:

      1.0:列存表的每列以一个单独的文件进行存储,文件名以relfilenode.C1.0、relfilenode.C2.0、relfilenode.C3.0等命名。

      2.0:列存表的每列合并存储在一个文件中,文件名以relfilenode.C1.0命名

      默认值:2.0

      在建列存表时选择COLVERSION=2.0,相比于1.0存储格式,在以下场景中性能有明显提升:

      1. 创建列存宽表场景下,建表时间显著减少。
      2. roach备份数据场景下,备份时间显著减少。
      3. build、catch up耗时显著减少。
      4. 占用磁盘空间大小显著减少。
    • SKIP_FPI_HINT

      顺序扫描过程中,若需要写FPW(full page writes)日志时,该参数控制是否跳过设置HintBits操作。

      默认值:false

      设置SKIP_FPI_HINT=true时,在对某表执行checkpoint操作后,若对该表进行顺序扫描,将不再产生Xlog。适用于查询次数较少的中间表,有效减少Xlog的大小,提升查询性能。

  • COMPRESS / NOCOMPRESS

    创建一个新表时,需要在创建表语句中指定关键字COMPRESS,这样,当对该表进行批量插入时就会触发压缩特性。该特性会在页范围内扫描所有元组数据,生成字典、压缩元组数据并进行存储。指定关键字NOCOMPRESS则不对表进行压缩。

    缺省值:NOCOMPRESS,即不对元组数据进行压缩。

  • DISTRIBUTE BY

    指定表如何在节点之间分布或者复制。

    • REPLICATION:表的每一行存在所有数据节点( DN )中,即每个数据节点都有完整的表数据。
    • HASH (column_name ) :对指定的列进行Hash,通过映射,把数据分布到指定DN。
    • 当指定DISTRIBUTE BY HASH (column_name)参数时,创建主键和唯一索引必须包含“ column_name”列。
    • 当被参照表指定DISTRIBUTE BY HASH (column_name)参数时,参照表的外键必须包含“ column_name”列。

    缺省值:HASH(column_name),column_name取表的主键列(如果有的话)或首个数据类型支持作为分布列的列。

    column_name的数据类型必须是以下类型之一:

    • INTEGER TYPES:TINYINT,SMALLINT,INT,BIGINT,NUMERIC/DECIMAL
    • CHARACTER TYPES: CHAR,BPCHAR,VARCHAR,VARCHAR2,NVARCHAR2,TEXT
    • DATE/TIME TYPES: DATE,TIME,TIMETZ,TIMESTAMP,TIMESTAMPTZ,INTERVAL,SMALLDATETIME
  • AS query

    一个SELECT VALUES命令或者一个运行预备好的SELECT或VALUES查询的EXECUTE命令。

  • [ WITH [ NO ] DATA ]

    创建表时,是否也插入查询到的数据。默认是要数据,选择“NO”参数时,则不要数据。

示例

创建一个表store_returns_t1并插入store_returns表中sr_item_sk字段中大于4795的数值:

1
CREATE TABLE store_returns_t1 AS SELECT * FROM store_returns WHERE sr_item_sk > '4795';

使用store_returns拷贝一个新表store_returns_t2:

1
CREATE TABLE store_returns_t2 AS table store_returns;

相关链接

CREATE TABLESELECT

分享:

    相关文档

    相关产品