更新时间:2024-10-21 GMT+08:00
分享

VACUUM

功能描述

VACUUM回收表或B-Tree索引中已经删除的行所占据的存储空间。在一般的数据库操作里,那些已经DELETE的行并没有从它们所属的表中物理删除;在完成VACUUM之前它们仍然存在。因此有必要周期地运行VACUUM,特别是在经常更新的表上。

注意事项

  • 如果没有参数,VACUUM处理当前数据库里用户拥有相应权限的每个表。如果参数指定了一个表,VACUUM只处理指定的那个表。
  • 要对一个表进行VACUUM操作,通常用户必须是表的所有者,被授予了指定表VACUUM权限的用户或者被授予了gs_role_vacuum_any角色的用户,系统管理员默认拥有此权限。数据库的所有者允许对数据库中除了共享目录以外的所有表进行VACUUM操作(该限制意味着只有系统管理员才能真正对一个数据库进行VACUUM操作)。VACUUM命令会跳过那些用户没有权限的表进行垃圾回收操作。
  • VACUUM不能在事务块内执行。
  • 建议生产数据库经常清理(至少每晚一次),以保证不断地删除失效的行。尤其是在增删了大量记录之后,对受影响的表执行VACUUM ANALYZE命令是一个很好的习惯。这样将更新系统目录为最近的更改,并且允许查询优化器在规划用户查询时有更好的选择。
  • 不建议日常使用FULL选项,但是可以在特殊情况下使用。例如在用户删除了一个表的大部分行之后,希望从物理上缩小该表以减少磁盘空间占用。VACUUM FULL通常要比单纯的VACUUM收缩更多的表尺寸。如果执行此命令后所占用物理空间无变化(未减少),请确认是否有其他活跃事务(删除数据事务开始之前开始的事务,并在VACUUM FULL执行前未结束)存在,如果有等其他活跃事务退出进行重试。
  • VACUUM会导致I/O流量的大幅增加,这可能会影响其他活动会话的性能。因此,有时候会建议使用基于开销的VACUUM延迟特性。
  • 如果指定了VERBOSE选项,VACUUM将打印处理过程中的信息,以表明当前正在处理的表。各种有关当前表的统计信息也会打印出来。
  • 语法格式中含有带括号的选项列表时,选项可以通过任何顺序写入。如果没有括号,则选项必须按语法显示的顺序给出。
  • VACUUM和VACUUM FULL时,会根据参数vacuum_defer_cleanup_age延迟清理行存表记录,即不会立即清理刚刚删除的元组。
  • VACUUM ANALYZE先执行一个VACUUM操作,然后给每个选定的表执行一个ANALYZE。对于日常维护脚本而言,这是一个很方便的组合。
  • 简单的VACUUM(不带FULL选项)只是简单地回收空间并且令其可以再次使用。这种形式的命令可以和对表的普通读写并发操作,因为没有请求排他锁。VACUUM FULL执行更广泛的处理,包括跨块移动行,以便把表压缩到最少的磁盘块数目里。这种形式要慢许多并且在处理的时候需要在表上施加一个排他锁。
  • VACUUM列存表内部执行的操作包括三个:迁移delta表中的数据到主表、VACUUM主表的delta表、VACUUM主表的desc表。该操作不会回收delta表的存储空间,如果要回收delta表的冗余存储空间,需要对该列存表执行VACUUM DELTAMERGE。
  • VACUUM FULL系统表只能离线操作,在线VACUUM FULL系统表除了会锁表,还可能导致一些异常情况并产生报错。
  • 如果有长查询访问系统表,此时执行VACUUM FULL,长查询可能会阻塞VACUUM FULL连接访问系统表,导致连接超时报错。
  • 对列存分区表执行VACUUM FULL,会同时锁表和锁分区。
  • 并发VACUUM FULL系统表可能会导致本地死锁。
  • 对表执行VACUUM FULL操作时会触发表重建(表重建过程中会先把数据转储到一个新的数据文件中,重建完成之后会删除原始文件),当表比较大时,重建会消耗较多的磁盘空间。当磁盘空间不足时,要谨慎对待大表VACUUM FULL操作,防止触发集群只读。
  • 定期对脏页率、小CU占比超过25%的表执行VACUUM FULL,普通表需在低峰期执行,系统表需离线执行。
  • 更多开发设计规范参见总体开发设计规范

语法格式

  • 回收空间并更新统计信息,关键字顺序必须按语法显示的顺序给出。
    1
    2
    VACUUM [ ( { FULL | FREEZE | VERBOSE | {ANALYZE | ANALYSE }} [,...] ) ]
        [ table_name [ (column_name [, ...] ) ] ] [ PARTITION ( partition_name ) ];
    
  • 仅回收空间,不更新统计信息。
    1
    VACUUM [ FULL [COMPACT] ] [ FREEZE ] [ VERBOSE ] [ table_name ] [ PARTITION ( partition_name ) ];
    
  • 回收空间并更新统计信息,且对关键字顺序有要求。
    1
    2
    VACUUM [ FULL ] [ FREEZE ] [ VERBOSE ] { ANALYZE | ANALYSE } [ VERBOSE ] 
        [ table_name [ (column_name [, ...] ) ] ] [ PARTITION ( partition_name ) ];
    
  • 针对HDFS表,将delta table中的数据转移到主表存储。
    1
    VACUUM DELTAMERGE [ table_name ];
    
  • 针对HDFS表,删除HDFS表在HDFS存储上的空值分区目录。
    1
    VACUUM HDFSDIRECTORY [ table_name ];
    

参数说明

  • FULL

    选择“FULL”清理,这样可以恢复更多的空间,但是需要耗时更多,并且在表上施加了排他锁。

    FULL选项还可以带有COMPACT参数,该参数只针对HDFS表,指定该参数的VACUUM FULL操作性能要好于未指定该参数的VACUUM FULL操作。

    COMPACT和PARTITION参数不能同时使用。

    使用FULL参数会导致统计信息丢失,如果需要收集统计信息,请在VACUUM FULL语句中加上analyze关键字。

  • FREEZE

    指定FREEZE相当于执行VACUUM时将GUC参数vacuum_freeze_min_age设为0。

  • VERBOSE

    为每个表打印一份详细的清理工作报告。

  • ANALYZE | ANALYSE

    更新用于优化器的统计信息,以决定执行查询的最有效方法。

  • table_name

    要清理的表的名称(可以有模式修饰)。

    取值范围:要清理的表的名称。缺省时为当前数据库中的所有表。

  • column_name

    要分析的具体的字段名称。

    取值范围:要分析的具体的字段名称。缺省时为所有字段。

  • PARTITION

    HDFS表不支持PARTITION参数,PARTITION参数不能和COMPACT同时使用。

    PARTITION参数和COMPACT同时使用会报错:COMPACT can not be used with PARTITION.

  • partition_name

    要清理的表的分区名称。缺省时为所有分区。

  • DELTAMERGE

    只针对HDFS表,将HDFS表的delta table中的数据转移到主表存储上。对HDFS表而言,当delta表中数据量小于六万行,则不作迁移,只有在大于或者等于六万行数据时,将delta表中所有数据迁移到HDFS上,并通过truncate清理delta表的存储空间。

  • HDFSDIRECTORY

    只针对HDFS表,删除HDFS表在HDFS存储上表目录下的空值分区目录。

示例

创建分区表customer_address:
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
DROP TABLE IF EXISTS customer_address;
CREATE TABLE customer_address
(
    ca_address_sk       INTEGER                  NOT NULL   ,
    ca_address_id       CHARACTER(16)            NOT NULL   ,
    ca_street_number    CHARACTER(10)                       ,
    ca_street_name      CHARACTER varying(60)               ,
    ca_street_type      CHARACTER(15)                       ,
    ca_suite_number     CHARACTER(10)                    
)
DISTRIBUTE BY HASH (ca_address_sk)
PARTITION BY RANGE(ca_address_sk)
(
        PARTITION P1 VALUES LESS THAN(2450815),
        PARTITION P2 VALUES LESS THAN(2451179),
        PARTITION P3 VALUES LESS THAN(2451544),
        PARTITION P4 VALUES LESS THAN(MAXVALUE)
);

清理当前数据库中的所有表:

1
VACUUM;

仅回收表customer_address分区P2的空间,不更新统计信息:

1
VACUUM FULL customer_address PARTITION(P2);

回收表customer_address空间,并更新统计信息:

1
VACUUM FULL ANALYZE customer_address;

清理当前数据库中的所有表并收集查询优化器的统计信息:

1
VACUUM ANALYZE;

仅清理特定表reason:

1
VACUUM (VERBOSE, ANALYZE) customer_address;

相关文档