最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据仓库服务
- 什么是数据仓库服务
- 数据仓库类型
- 数据仓库规格
- 产品优势
- 应用场景
- 产品功能
- 基本概念
- 与其他云服务的关系
- 安全
- GaussDB(DWS)权限管理
- 如何访问GaussDB(DWS)
- 技术支持
- 配额说明
- GaussDB(DWS)技术指标
计费说明
- GaussDB(DWS)计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
  - 续费概述
  - 手动续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- 快速创建GaussDB(DWS)集群并导入数据进行查询
- GaussDB(DWS)数据开发SQL入门操作
- GaussDB(DWS)入门实践
管理指南
- GaussDB(DWS)使用流程
- 准备工作
- 创建GaussDB(DWS)集群
- 连接GaussDB(DWS)集群
- 创建GaussDB(DWS)数据库和用户
- 迁移业务数据至GaussDB(DWS)集群
  - 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群
  - 管理数据源
- GaussDB(DWS)集群数据安全与加密
- GaussDB(DWS)集群管理
- GaussDB(DWS)集群运维
最佳实践
- 导入导出
- 数据迁移
- 数据分析
- 存算分离
  - GaussDB(DWS) 3.0 存算分离使用建议及性能优化
- 数据开发
- 数据库管理
- 性能调优
  - 基于表结构设计和调优提升GaussDB(DWS)查询性能
  - 分析正在执行的SQL以处理GaussDB(DWS)业务阻塞
- 集群管理
  - 为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力
  - GaussDB(DWS)存算一体架构弹性伸缩系统性介绍
数据迁移与同步
- 迁移数据到GaussDB(DWS)
- 导入数据
- 整库迁移
  - 使用CDM迁移数据到GaussDB(DWS)
  - 使用DSC工具迁移SQL脚本
- 实时入库
  - 使用DRS将数据导入GaussDB(DWS)
  - Kafka实时入库到GaussDB(DWS)
- 元数据迁移
  - 使用gs_dump和gs_dumpall命令导出元数据
  - 使用gs_restore导入数据
- 导出数据
- 其他操作
开发指南
- 标准数仓开发指南(9.1.0.x)
- 标准数仓开发指南(8.1.3.x)
- 实时数仓开发指南(9.1.0.x)
- 实时数仓开发指南(8.1.3.x)
- 历史版本
SQL语法参考
- SQL语法参考(9.1.0.x)
- SQL语法参考(8.1.3.x)
- 历史版本
性能调优
- 优化查询性能概述
- Query执行流程
- SQL执行计划
- SQL调优指南
- 实际调优案例
- SQL执行troubleshooting
- query_band负载识别
- 常见性能参数调优设计
工具指南
- 工具简介
- 工具下载
- gsql
- Data Studio
- GDS
- DSC
- DataCheck
- DWS-Connector
- 服务端工具
API参考
- 使用前必读
- API概述
- 如何调用API
- 快速入门
- API说明
- 应用示例
  - 使用Postman调用创建集群接口
  - 使用Postman调用创建快照接口
- 权限及授权项说明
- 附录
SDK参考
- SDK概述
常见问题
- Top问题汇总
- 产品咨询
- 数据库连接
- 数据迁移
- 数据库使用
- 集群管理
- 账户与权限
- 数据库性能
- 备份恢复
  1. 为什么GaussDB(DWS)自动快照创建很慢，很长时间都没有创建好？
  2. GaussDB(DWS)快照是否与EVS快照功能相同？
故障排除
- 数据库连接管理
- JDBC/ODBC类
- 数据导入/导出
- 数据库参数修改
- 账号/权限/密码
- 集群性能
- 集群异常
  - 磁盘监控告警阈值太低，告警频繁
- 数据库使用
性能白皮书
- 概述
- 测试结果
  - TPC-H 单并发查询
  - TPC-DS 单并发查询
- 测试方法
- 附录
  - TPC-H测试集
  - TPC-DS测试集
技术白皮书
- DWS产品简介
- DWS支持平台和技术指标
  - 技术指标
- DWS核心技术
- DWS工具
- DWS对外接口
错误码参考
- 8.2.0及以下版本
  - 管理控制台错误码
  - 数据仓库错误码
- 8.2.1及以上版本
  - 错误码命名规范
  - 行列存
    - 行存
    - 列存
    - GIN索引
    - Btree索引
    - 行存vacuum
    - SP-GiST索引
    - Hash索引
  - 事务
    - 锁
    - GTM
    - xlog
    - checkpoint
  - HA
  - SQL on Anywhere
    - SQL on hudi
    - OBS / HDFS / DLI
  - GDS/Copy
    - 公共机制（选项参数、任务分配、压缩）
    - 导入
  - 解析器
    - 词法分析
    - 语法分析
    - DDL
    - DML
    - 表达式
    - 元数据
  - 优化器
  - 执行器
  - 安全
    - 授权
    - 脱敏
  - 通信
  - WLM
  - 逻辑集群
  - 其他
产品术语
更多文档
- 用户指南（阿布扎比区域）
- API参考（阿布扎比区域）
- 开发指南（阿布扎比区域）
- 语法参考（阿布扎比区域）
- 工具指南（阿布扎比区域）
- 错误码参考（阿布扎比区域）
  - 管理控制台错误码
- 用户指南（巴黎区域）
- API参考 (巴黎区域)
- 开发指南（巴黎区域）
- 语法参考（巴黎区域）
- 工具指南（巴黎区域）
- 错误码参考（巴黎区域）
  - 管理控制台错误码
- 用户指南（吉隆坡区域）
- API参考（吉隆坡区域）
- 开发指南（吉隆坡地区）
- 语法参考（吉隆坡地区）
- 工具指南（吉隆坡地区）
- 错误码参考（吉隆坡地区）
  - 管理控制台错误码
性能白皮书
- 性能白皮书(9.1.0.x)
通用参考
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 数据仓库服务 GaussDB(DWS)/ SQL语法参考/ SQL语法参考(9.1.0.x)/ DDL语法/ CLUSTER

CLUSTER

更新时间：2024-12-30 GMT+08:00

查看PDF

功能描述

根据一个索引对表进行聚簇排序。

CLUSTER指示GaussDB(DWS)基于索引名指定的索引来聚簇由表名指定的表。索引名指定的索引必须已经定义在指定表上。

当对一个表聚簇后，该表将基于索引信息进行物理排序。聚簇是一次性操作：当表被更新之后，更改的内容不会被聚簇。也就是说，系统不会试图按照索引顺序对新的存储内容及更新记录进行重新聚簇。

在对一个表聚簇之后，GaussDB(DWS)会记录在哪个索引上建立了聚簇。形式CLUSTER table_name会使用前面所用的同一个索引对表重新聚簇。用户也可以用CLUSTER或ALTER TABLE的SET WITHOUT CLUSTER形式把索引设置为可用于后续的聚簇操作或清除任何之前的设置。

不含参数的CLUSTER会将当前用户所拥有的数据库中的先前做过聚簇的所有表重新聚簇，如果是系统管理员调用，则是所有已被聚簇过的表。

在对一个表进行聚簇的时候，会在其上请求一个ACCESS EXCLUSIVE锁。这样就避免了在CLUSTER完成之前对此表执行其它的操作(包括读写)。

注意事项

只有行存B-tree索引支持CLUSTER操作。
如果用户只是随机访问表中的行，那么表中数据的实际存储顺序是无关紧要的。但是，如果对某些数据的访问多于其它数据，而且有一个索引将这些数据分组，那么使用CLUSTER会有所帮助。如果从一个表中请求一定索引范围的值，或者是一个索引值对应多行，CLUSTER也会有助于应用，因为如果索引标识出第一匹配行所在的存储页，所有其它行也可能已经在同一个存储页里了，这样便节省了磁盘访问的时间，加速了查询。

在聚簇过程中，系统先创建一个按照索引顺序建立的表的临时拷贝，同时也建立表上的每个索引的临时拷贝。因此，需要磁盘上有足够的剩余空间，至少是表大小和索引大小的和。
由于CLUSTER会记忆聚集信息，可以在第一次的时候手工对表进行聚簇，然后设置一个类似VACUUM的时间，这样就可以周期地自动对表进行聚簇操作。

因为优化器记录着有关表的排序的统计，所以建议在新近聚簇的表上运行ANALYZE。否则，优化器可能会选择很差劲的查询规划。
CLUSTER不允许在事务中执行。
全局临时表不能进行CLUSTER操作。

对表执行CLUSTER操作时会触发表重建（表重建过程中会先把数据转储到一个新的数据文件中，重建完成之后会删除原始文件），当表比较大时，重建会消耗较多的磁盘空间。当磁盘空间不足时，要谨慎对待大表CLUSTER操作，防止触发集群只读。
存算分离架构下，对CLUSTER全库的操作会有提示不支持。

语法格式

对一个表进行聚簇排序。

      
         CLUSTER [ VERBOSE ] table_name [ USING index_name ];

对一个分区进行聚簇排序。

      
         CLUSTER [ VERBOSE ] table_name PARTITION ( partition_name ) [ USING index_name ];

对已做过聚簇的表重新进行聚簇。
1

CLUSTER [ VERBOSE ];

参数说明

VERBOSE
启用显示进度信息。
table_name
表名称。

取值范围：已存在的表名称。
index_name
索引名称。

取值范围：已存在的索引名称。
partition_name
分区名称。

取值范围：已存在的分区名称。

示例

创建一个分区表：

    
     
       
       CREATE TABLE tpcds.inventory_p1
(
    INV_DATE_SK               INTEGER               NOT NULL,
    INV_ITEM_SK               INTEGER               NOT NULL,
    INV_WAREHOUSE_SK          INTEGER               NOT NULL,
    INV_QUANTITY_ON_HAND      INTEGER
)
DISTRIBUTE BY HASH(INV_ITEM_SK)
PARTITION BY RANGE(INV_DATE_SK)
(
        PARTITION P1 VALUES LESS THAN(2451179),
        PARTITION P2 VALUES LESS THAN(2451544),
        PARTITION P3 VALUES LESS THAN(2451910),
        PARTITION P4 VALUES LESS THAN(2452275),
        PARTITION P5 VALUES LESS THAN(2452640),
        PARTITION P6 VALUES LESS THAN(2453005),
        PARTITION P7 VALUES LESS THAN(MAXVALUE)
);

      

    
   

创建索引ds_inventory_p1_index1。

    
       CREATE INDEX ds_inventory_p1_index1 ON tpcds.inventory_p1 (INV_ITEM_SK) LOCAL;

对表tpcds.inventory_p1进行聚集：

    
       CLUSTER tpcds.inventory_p1 USING ds_inventory_p1_index1;

对分区p3进行聚集：

    
       CLUSTER tpcds.inventory_p1 PARTITION (p3) USING ds_inventory_p1_index1;

对数据库中可以进行聚集的表进聚集：

CLUSTER;

父主题： DDL语法

上一篇：CLOSE

下一篇：COMMENT

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消