最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据仓库服务
- 什么是数据仓库服务
- 数据仓库类型
- 数据仓库规格
- 产品优势
- 应用场景
- 产品功能
- 基本概念
- 与其他云服务的关系
- 安全
- GaussDB(DWS)权限管理
- 如何访问GaussDB(DWS)
- 技术支持
- 配额说明
- GaussDB(DWS)技术指标
计费说明
- GaussDB(DWS)计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
  - 续费概述
  - 手动续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- 快速创建GaussDB(DWS)集群并导入数据进行查询
- GaussDB(DWS)数据开发SQL入门操作
- GaussDB(DWS)入门实践
管理指南
- GaussDB(DWS)使用流程
- 准备工作
- 创建GaussDB(DWS)集群
- 连接GaussDB(DWS)集群
- 创建GaussDB(DWS)数据库和用户
- 迁移业务数据至GaussDB(DWS)集群
  - 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群
  - 管理数据源
- GaussDB(DWS)集群数据安全与加密
- GaussDB(DWS)集群管理
- GaussDB(DWS)集群运维
最佳实践
- 导入导出
- 数据迁移
- 数据分析
- 存算分离
  - GaussDB(DWS) 3.0 存算分离使用建议及性能优化
- 数据开发
- 数据库管理
- 性能调优
  - 基于表结构设计和调优提升GaussDB(DWS)查询性能
  - 分析正在执行的SQL以处理GaussDB(DWS)业务阻塞
- 集群管理
  - 为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力
  - GaussDB(DWS)存算一体架构弹性伸缩系统性介绍
数据迁移与同步
- 迁移数据到GaussDB(DWS)
- 导入数据
- 整库迁移
  - 使用CDM迁移数据到GaussDB(DWS)
  - 使用DSC工具迁移SQL脚本
- 实时入库
  - 使用DRS将数据导入GaussDB(DWS)
  - Kafka实时入库到GaussDB(DWS)
- 元数据迁移
  - 使用gs_dump和gs_dumpall命令导出元数据
  - 使用gs_restore导入数据
- 导出数据
- 其他操作
开发指南
- 标准数仓开发指南(9.1.0.x)
- 标准数仓开发指南(8.1.3.x)
- 实时数仓开发指南(9.1.0.x)
- 实时数仓开发指南(8.1.3.x)
- 历史版本
SQL语法参考
- SQL语法参考(9.1.0.x)
- SQL语法参考(8.1.3.x)
- 历史版本
性能调优
- 优化查询性能概述
- Query执行流程
- SQL执行计划
- SQL调优指南
- 实际调优案例
- SQL执行troubleshooting
- query_band负载识别
- 常见性能参数调优设计
工具指南
- 工具简介
- 工具下载
- gsql
- Data Studio
- GDS
- DSC
- DataCheck
- DWS-Connector
- 服务端工具
API参考
- 使用前必读
- API概述
- 如何调用API
- 快速入门
- API说明
- 应用示例
  - 使用Postman调用创建集群接口
  - 使用Postman调用创建快照接口
- 权限及授权项说明
- 附录
SDK参考
- SDK概述
常见问题
- Top问题汇总
- 产品咨询
- 数据库连接
- 数据迁移
- 数据库使用
- 集群管理
- 账户与权限
- 数据库性能
- 备份恢复
  1. 为什么GaussDB(DWS)自动快照创建很慢，很长时间都没有创建好？
  2. GaussDB(DWS)快照是否与EVS快照功能相同？
故障排除
- 数据库连接管理
- JDBC/ODBC类
- 数据导入/导出
- 数据库参数修改
- 账号/权限/密码
- 集群性能
- 集群异常
  - 磁盘监控告警阈值太低，告警频繁
- 数据库使用
性能白皮书
- 概述
- 测试结果
  - TPC-H 单并发查询
  - TPC-DS 单并发查询
- 测试方法
- 附录
  - TPC-H测试集
  - TPC-DS测试集
技术白皮书
- DWS产品简介
- DWS支持平台和技术指标
  - 技术指标
- DWS核心技术
- DWS工具
- DWS对外接口
错误码参考
- 8.2.0及以下版本
  - 管理控制台错误码
  - 数据仓库错误码
- 8.2.1及以上版本
  - 错误码命名规范
  - 行列存
    - 行存
    - 列存
    - GIN索引
    - Btree索引
    - 行存vacuum
    - SP-GiST索引
    - Hash索引
  - 事务
    - 锁
    - GTM
    - xlog
    - checkpoint
  - HA
  - SQL on Anywhere
    - SQL on hudi
    - OBS / HDFS / DLI
  - GDS/Copy
    - 公共机制（选项参数、任务分配、压缩）
    - 导入
  - 解析器
    - 词法分析
    - 语法分析
    - DDL
    - DML
    - 表达式
    - 元数据
  - 优化器
  - 执行器
  - 安全
    - 授权
    - 脱敏
  - 通信
  - WLM
  - 逻辑集群
  - 其他
产品术语
更多文档
- 用户指南（阿布扎比区域）
- API参考（阿布扎比区域）
- 开发指南（阿布扎比区域）
- 语法参考（阿布扎比区域）
- 工具指南（阿布扎比区域）
- 错误码参考（阿布扎比区域）
  - 管理控制台错误码
- 用户指南（巴黎区域）
- API参考 (巴黎区域)
- 开发指南（巴黎区域）
- 语法参考（巴黎区域）
- 工具指南（巴黎区域）
- 错误码参考（巴黎区域）
  - 管理控制台错误码
- 用户指南（吉隆坡区域）
- API参考（吉隆坡区域）
- 开发指南（吉隆坡地区）
- 语法参考（吉隆坡地区）
- 工具指南（吉隆坡地区）
- 错误码参考（吉隆坡地区）
  - 管理控制台错误码
性能白皮书
- 性能白皮书(9.1.0.x)
通用参考
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 数据仓库服务 GaussDB(DWS)/ 开发指南/ 标准数仓开发指南(9.1.0.x)/ GaussDB(DWS)性能调优/ SQL调优/ SQL调优进阶/ 子查询调优

子查询调优

更新时间：2024-12-30 GMT+08:00

子查询背景介绍

应用程序通过SQL语句来操作数据库时会使用大量的子查询，这种写法比直接对两个表做连接操作在结构上和思路上更清晰，尤其是在一些比较复杂的查询语句中，子查询有更完整、更独立的语义，会使SQL对业务逻辑的表达更清晰更容易理解，因此得到了广泛的应用。

GaussDB(DWS)根据子查询在SQL语句中的位置把子查询分成了子查询、子链接两种形式。

子查询SubQuery：对应于查询解析树中的范围表RangeTblEntry，更通俗一些指的是出现在FROM语句后面的独立的SELECT语句。

子链接SubLink：对应于查询解析树中的表达式，更通俗一些指的是出现在where/on子句、targetlist里面的语句。

综上，对于查询解析树而言，SubQuery的本质是范围表，而SubLink的本质是表达式。针对SubLink场景而言，由于SubLink可以出现在约束条件、表达式中，按照GaussDB(DWS)对sublink的实现，sublink可以分为以下几类：

exist_sublink：对应EXIST、NOT EXIST语句
any_sublink：对应op Any(select…)语句，其中OP可以是IN,<,>,=操作符
all_sublink：对应op ALL(select…)语句，其中OP可以是IN,<,>,=操作符
rowcompare_sublink：对应record op (select …)语句
expr_sublink：对应(SELECT with single targetlist item ...)语句
array_sublink：对应ARRAY(select…)语句
cte_sublink：对应with query(…)语句

其中OLAP、HTAP场景中常用的sublink为exist_sublink、any_sublink，在GaussDB(DWS)的优化引擎中对其应用场景做了优化（子链接提升），由于SQL语句中子查询的使用的灵活性，会带来SQL子查询过于复杂而造成的性能问题。子查询从大类上来看，分为非相关子查询和相关子查询：

非相关子查询None-Correlated SubQuery

子查询的执行不依赖于外层父查询的任何属性值。这样子查询具有独立性，可独自求解，形成一个子查询计划先于外层的查询求解。

例如：

        
         
           
           select t1.c1,t1.c2
from t1
where t1.c1 in (
    select c2
    from t2
    where t2.c2 IN (2,3,4)
);
                          QUERY PLAN
---------------------------------------------------------------
Streaming (type: GATHER)
   Node/s: All datanodes
   ->  Hash Right Semi Join
         Hash Cond: (t2.c2 = t1.c1)
         ->  Streaming(type: REDISTRIBUTE)
               Spawn on: All datanodes
               ->  Seq Scan on t2
                     Filter: (c2 = ANY ('{2,3,4}'::integer[]))
         ->  Hash
               ->  Seq Scan on t1
(10 rows)

          

        
       

相关子查询Correlated-SubQuery

子查询的执行依赖于外层父查询的一些属性值（如下列示例t2.c1 = t1.c1条件中的t1.c1）作为内层查询的一个AND-ed条件。这样的子查询不具备独立性，需要和外层查询按分组进行求解。

例如：

        
         
           
           select t1.c1,t1.c2
from t1
where t1.c1 in (
    select c2
    from t2
    where t2.c1 = t1.c1 AND t2.c2 in (2,3,4)
);
                                 QUERY PLAN
-----------------------------------------------------------------------
Streaming (type: GATHER)
   Node/s: All datanodes
   ->  Seq Scan on t1
         Filter: (SubPlan 1)
         SubPlan 1
           ->  Result
                 Filter: (t2.c1 = t1.c1)
                 ->  Materialize
                         ->  Streaming(type: BROADCAST)
                             Spawn on: All datanodes
                             ->  Seq Scan on t2
                                   Filter: (c2 = ANY ('{2,3,4}'::integer[]))
(12 rows)

          

        
       

GaussDB(DWS)对SubLink的优化

针对SubLink的优化策略主要是让内层的子查询提升（pullup），能够和外表直接做关联查询，从而避免生成SubPlan+Broadcast內表的执行计划。判断子查询是否存在性能风险，可以通过explain查询语句查看Sublink的部分是否被转换成SubPlan+Broadcast的执行计划。

例如：

点击放大

目前GaussDB(DWS)支持的Sublink-Release场景

IN-Sublink无相关条件
- 不能包含上一层查询的表中的列（可以包含更高层查询表中的列）。
- 不能包含易变函数。
Exist-Sublink包含相关条件
 Where子句中必须包含上一层查询的表中的列，子查询的其它部分不能含有上层查询的表中的列。其它限制如下：
- 子查询必须有from子句。
- 子查询不能含有with子句。
- 子查询不能含有聚集函数。
- 子查询里不能包含集合操作、排序、limit、windowagg、having操作。
- 不能包含易变函数。

包含聚集函数的等值相关子查询的提升

子查询的where条件中必须含有来自上一层的列，而且此列必须和子查询本层涉及表中的列做相等判断，且这些条件必须用and连接。其它地方不能包含上层的列。其它限制条件如下：

子查询中where条件包含的表达式（列名）必须是表中的列。

子查询的Select关键字后，必须有且仅有一个输出列，此输出列必须是聚集函数（如max），并且聚集函数的参数（t2.c2）不能是来自外层表（t1）中的列。聚集函数不能是count。

下列示例可以提升：

           
              select * from t1 where c1 >(
       select max(t2.c1) from t2 where t2.c1=t1.c1
);

下列示例不能提升，因为子查询没有聚集函数：

          
             select * from t1 where c1 >(
       select  t2.c1 from t2 where t2.c1=t1.c1
);

下列示例不能提升，因为子查询有两个输出列：

          
             select * from t1 where (c1,c2) >(
       select  max(t2.c1),min(t2.c2) from t2 where t2.c1=t1.c1
);

子查询必须是from子句。
子查询中不能有groupby、having、集合操作。

子查询只能是inner join。

下列示例不能提升：

           
              select * from t1 where c1 >(
       select max(t2.c1) from t2 full join t3 on (t2.c2=t3.c2) where t2.c1=t1.c1
);

子查询的targetlist中不能包含返回set的函数。

子查询的where条件中必须含有来自上一层的列，而且此列必须和子查询层涉及表中的列做相等判断，且这些条件必须用and连接。其它地方不能包含上层中的列。下列示例中的最内层子链接可以提升：

          
             select * from t3 where t3.c1=(
        select t1.c1
        from t1 where c1 >(
                select max(t2.c1) from t2 where t2.c1=t1.c1 
));

基于上面的示例，再加一个条件，则不能提升，因为最内侧子查询引用了上层中的列。示例如下：

          
             select * from t3 where t3.c1=(
        select t1.c1
        from t1 where c1 >(
               select max(t2.c1) from t2 where t2.c1=t1.c1 and t3.c1>t2.c2

));

提升OR子句中的SubLink

当WHERE过滤条件中有OR连接的EXIST相关SubLink，

例如：

        
           select a, c from t1
where t1.a = (select avg(a) from t3 where t1.b = t3.b) or
exists (select * from t4 where t1.c = t4.c);

将OR-ed连接的EXIST相关子查询OR子句的提升过程：

提取where条件中，or子句中的opExpr。为：t1.a = (select avg(a) from t3 where t1.b = t3.b)

这个op操作中包含subquery，判断是否可以提升，如果可以提升，重写subquery为：select avg(a), t3.b from t3 group by t3.b，生成not null条件t3.b is not null，并将这个opexpr用这个not null条件替换。此时SQL变为：

          
             select a, c
from t1 left join (select avg(a) avg, t3.b from t3 group by t3.b)  as t3 on (t1.a = avg and t1.b = t3.b)
where t3.b is not null or exists (select * from t4 where t1.c = t4.c);

再次提取or子句中的exists sublink，exists (select * from t4 where t1.c = t4.c)，判断是否可以提升，如果可以提升，转换subquery为：select t4.c from t4 group by t4.c生成NotNull条件t4.c is not null提升查询，SQL变为：

          
             select a, c
from t1 left join (select avg(a) avg, t3.b from t3 group by t3.b)  as t3 on (t1.a = avg and t1.b = t3.b)
left join (select t4.c from t4 group by t4.c) where t3.b is not null or t4.c is not null;

点击放大

目前GaussDB(DWS)不支持的Sublink-Release场景

除了以上场景之外都不支持Sublink提升，因此关联子查询会被计划成SubPlan+Broadcast的执行计划，当inner表的数据量较大时则会产生性能风险。

如果相关子查询中跟外层的两张表做join，那么无法提升该子查询，需要通过将父SQL创建成with子句，然后再跟子查询中的表做相关子查询。

例如：

      
         select distinct t1.a, t2.a
from t1 left join t2 on t1.a=t2.a and not exists (select a,b from test1 where test1.a=t1.a and test1.b=t2.a);

改写为

      
         with temp as
(
        select * from (select t1.a as a, t2.a as b from t1 left join t2 on t1.a=t2.a)

)
select distinct a,b
from temp
where not exists (select a,b from test1 where temp.a=test1.a and temp.b=test1.b);

出现在targetlist里的相关子查询无法提升(不含count)

例如：

        
           explain (costs off)
select (select c2 from t2 where t1.c1 = t2.c1) ssq, t1.c2
from t1
where t1.c2 > 10;

执行计划为：

        
         
           
           explain (costs off)
select (select c2 from t2 where t1.c1 = t2.c1) ssq, t1.c2
from t1
where t1.c2 > 10;
                      QUERY PLAN
------------------------------------------------------
 Streaming (type: GATHER)
   Node/s: All datanodes
   ->  Seq Scan on t1
         Filter: (c2 > 10)
         SubPlan 1
           ->  Result
                 Filter: (t1.c1 = t2.c1)
                 ->  Materialize
                       ->  Streaming(type: BROADCAST)
                             Spawn on: All datanodes
                             ->  Seq Scan on t2
(11 rows)

          

        
       

由于相关子查询出现在targetlist（查询返回列表）里，对于t1.c1=t2.c1不匹配的场景仍然需要输出值，因此使用left-outerjoin关联T1&T2确保t1.c1=t2.c1在不匹配时，子SSQ能够返回不匹配的补空值。

说明：

SSQ和CSSQ的解释如下：

SSQ：ScalarSubQuery一般指返回1行1列scalar值的sublink，简称SSQ。
CSSQ：Correlated-ScalarSubQuery和SSQ相同不过是指包含相关条件的SSQ。

上述SQL语句可以改写为：

        
           with ssq as
(
    select t2.c1, t2.c2 from t2
)
select ssq.c2, t1.c2
from t1 left join ssq on t1.c1 = ssq.c1
where t1.c2 > 10;

改写后的执行计划为：

        
                           QUERY PLAN
-------------------------------------------
 Streaming (type: GATHER)
   Node/s: All datanodes
   ->  Hash Right Join
         Hash Cond: (t2.c1 = t1.c1)
         ->  Seq Scan on t2
         ->  Hash
               ->  Seq Scan on t1
                     Filter: (c2 > 10)
(8 rows)

可以看到出现在SSQ返回列表里的相关子查询SSQ，已经被提升成Right Join，从而避免当內表T2较大时出现SubPlan+Broadcast计划导致性能变差。

出现在targetlist里的相关子查询无法提升(带count)

例如：

        
           select (select count(*) from t2 where t2.c1=t1.c1) cnt, t1.c1, t3.c1
from t1,t3
where t1.c1=t3.c1 order by cnt, t1.c1;

执行计划为：

        
         
           
                                       QUERY PLAN
------------------------------------------------------------------
 Streaming (type: GATHER)
   Node/s: All datanodes
   ->  Sort
         Sort Key: ((SubPlan 1)), t1.c1
         ->  Hash Join
               Hash Cond: (t1.c1 = t3.c1)
               ->  Seq Scan on t1
               ->  Hash
                     ->  Seq Scan on t3
               SubPlan 1
                 ->  Aggregate
                       ->  Result
                             Filter: (t2.c1 = t1.c1)
                             ->  Materialize
                                   ->  Streaming(type: BROADCAST)
                                         Spawn on: All datanodes
                                         ->  Seq Scan on t2
(17 rows)

          

        
       

由于相关子查询出现在targetlist（查询返回列表）里，对于t1.c1=t2.c1不匹配的场景仍然需要输出值，因此使用left-outerjoin关联T1&T2确保t1.c1=t2.c1在不匹配时子SSQ能够返回不匹配的补空值，但是这里带了count语句及时在t1.c1=t2.t1不匹配时需要输出0，因此可以使用一个case-when NULL then 0 else count(*)来代替。

上述SQL语句可以改写为：

        
           with ssq as
(
    select count(*) cnt, c1 from t2 group by c1
)
select case when
            ssq.cnt is null then 0
            else ssq.cnt
       end cnt, t1.c1, t3.c1
from t1 left join ssq on ssq.c1 = t1.c1,t3
where t1.c1 = t3.c1
order by ssq.cnt, t1.c1;

改写后的执行计划为：

        
         
           
             QUERY PLAN
-----------------------------------------------------
 Streaming (type: GATHER)
   Node/s: All datanodes
   ->  Sort
         Sort Key: (count(*)), t1.c1
         ->  Hash Join
               Hash Cond: (t1.c1 = t3.c1)
               ->  Hash Left Join
                     Hash Cond: (t1.c1 = t2.c1)
                     ->  Seq Scan on t1
                     ->  Hash
                           ->  HashAggregate
                                 Group By Key: t2.c1
                                 ->  Seq Scan on t2
               ->  Hash
                     ->  Seq Scan on t3
(15 rows)

          

        
       

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消