EXPLAIN
功能描述
显示SQL语句的执行计划。
执行计划将显示SQL语句所引用的表采用的扫描方式,如:简单的顺序扫描、索引扫描等。如果引用了多个表,执行计划还会显示使用的JOIN算法。
执行计划的最关键部分是语句的预计执行开销,这是计划生成器估算执行该语句将花费多长的时间。
若指定了ANALYZE选项,则该语句会被执行,然后根据实际的运行结果显示统计数据,包括每个计划节点内时间总开销(毫秒为单位)和实际返回的总行数。这对于判断计划生成器是否接近现实非常有用。
注意事项
在指定ANALYZE选项时,语句会被执行。如果用户使用EXPLAIN分析INSERT,UPDATE,DELETE,CREATE TABLE AS或EXECUTE语句,但不改动数据(执行这些语句会影响数据),可使用以下所示的方法:
1 2 3 |
START TRANSACTION; EXPLAIN ANALYZE ...; ROLLBACK; |
语法格式
- 显示SQL语句的执行计划,支持多种选项,对选项顺序无要求:
1
EXPLAIN [ ( option [, ...] ) ] statement;
其中选项option子句的语法为:
1 2 3 4 5 6 7 8 9 10 11 12
ANALYZE [ boolean ] | ANALYSE [ boolean ] | VERBOSE [ boolean ] | COSTS [ boolean ] | CPU [ boolean ] | DETAIL [ boolean ] | NODES [ boolean ] | NUM_NODES [ boolean ] | BUFFERS [ boolean ] | TIMING [ boolean ] | PLAN [ boolean ] | FORMAT { TEXT | XML | JSON | YAML }
- 显示SQL语句的执行计划,且要按顺序给出选项:
1
EXPLAIN { [ { ANALYZE | ANALYSE } ] [ VERBOSE ] | PERFORMANCE } statement;
- 显示复现SQL语句的执行计划所需的信息,通常用于定位问题。STATS选项必须单独使用:
1
EXPLAIN ( STATS [ boolean ] ) statement;
- 显示DDL语句执行步骤的详细耗时信息(该语法仅9.1.0及以上集群版本支持):
1
EXPLAIN PERFORMANCE statement;
支持的DDL语句有CREATE、CREATE INDEX、DROP、VACUUM FULL、ANALYZE及COPY。
参数说明
- statement
指定要分析的SQL语句。
- ANALYZE boolean | ANALYSE boolean
显示实际运行时间和其他统计数据。
取值范围:
- TRUE(缺省值):显示实际运行时间和其他统计数据。
- FALSE:不显示。
- VERBOSE boolean
显示有关计划的额外信息。
取值范围:
- TRUE(缺省值):显示额外信息。
- FALSE:不显示。
- COSTS boolean
包括每个规划节点的估计总成本,以及估计的行数和每行的宽度。
取值范围:
- TRUE(缺省值):显示估计总成本和宽度。
- FALSE:不显示。
- CPU boolean
打印CPU的使用情况的信息。
取值范围:
- TRUE(缺省值):显示CPU的使用情况。
- FALSE:不显示。
- DETAIL boolean
打印DN上的信息。
取值范围:
- TRUE(缺省值):打印DN的信息。
- FALSE:不打印。
8.2.1及以上集群版本支持explain打开Detail开关时,执行计划中会显示倾斜值比对耗时。
- NODES boolean
打印query执行的节点信息。
取值范围:
- TRUE(缺省值):打印执行的节点的信息。
- FALSE:不打印。
- NUM_NODES boolean
打印执行中的节点的个数信息。
取值范围:
- TRUE(缺省值):打印DN个数的信息。
- FALSE:不打印。
- BUFFERS boolean
包括缓冲区的使用情况的信息。
取值范围:
- TRUE:显示缓冲区的使用情况。
- FALSE(缺省值):不显示。
- TIMING boolean
包括实际的启动时间和花费在输出节点上的时间信息。
取值范围:
- TRUE(缺省值):显示启动时间和花费在输出节点上的时间信息。
- FALSE:不显示。
- PLAN
是否将执行计划存储在plan_table中。当该选项开启时,会将执行计划存储在PLAN_TABLE中,不打印到当前屏幕,因此该选项为on时,不能与其他选项同时使用。
取值范围:
- ON(缺省值):将执行计划存储在plan_table中,不打印到当前屏幕。执行成功返回EXPLAIN SUCCESS。
- OFF:不存储执行计划,将执行计划打印到当前屏幕。
- FORMAT
指定输出格式。
取值范围:TEXT,XML,JSON和YAML。
默认值:TEXT
- PERFORMANCE
使用此选项时,即打印执行中的所有相关信息。
- STATS boolean
打印复现SQL语句的执行计划所需的信息,包括对象定义、统计信息、配置参数等,通常用于定位问题。
取值范围:
- TRUE(缺省值):显示复现SQL语句的执行计划所需的信息。
- FALSE:不显示。
示例
创建一个表tpcds.customer_address_p1:
1
|
CREATE TABLE tpcds.customer_address_p1 AS TABLE tpcds.customer_address; |
修改explain_perf_mode为normal:
1
|
SET explain_perf_mode=normal; |
显示表简单查询的执行计划:
1 2 3 4 5 6 |
EXPLAIN SELECT * FROM tpcds.customer_address_p1; QUERY PLAN ---------------------------------------------------------------------------- Data Node Scan on "__REMOTE_FQS_QUERY__" (cost=0.00..0.00 rows=0 width=0) Node/s: All datanodes (2 rows) |
以JSON格式输出的执行计划(explain_perf_mode为normal时):
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
EXPLAIN(FORMAT JSON) SELECT * FROM tpcds.customer_address_p1; QUERY PLAN --------------------------------------------------- [ + { + "Plan": { + "Node Type": "Data Node Scan", + "RemoteQuery name": "__REMOTE_FQS_QUERY__",+ "Alias": "__REMOTE_FQS_QUERY__", + "Startup Cost": 0.00, + "Total Cost": 0.00, + "Plan Rows": 0, + "Plan Width": 0, + "Nodes": "All datanodes" + } + } + ] (1 row) |
如果有一个索引,当使用一个带索引WHERE条件的查询,可能会显示一个不同的计划:
1 2 3 4 5 6 |
EXPLAIN SELECT * FROM tpcds.customer_address_p1 WHERE ca_address_sk=10000; QUERY PLAN ------------------------------------------------------------------------------ Data Node Scan on "__REMOTE_LIGHT_QUERY__" (cost=0.00..0.00 rows=0 width=0) Node/s: datanode2 (2 rows) |
以YAML格式输出的执行计划(explain_perf_mode为normal时):
1 2 3 4 5 6 7 8 9 10 11 12 13 |
EXPLAIN(FORMAT YAML) SELECT * FROM tpcds.customer_address_p1 WHERE ca_address_sk=10000; QUERY PLAN ------------------------------------------------ - Plan: + Node Type: "Data Node Scan" + RemoteQuery name: "__REMOTE_LIGHT_QUERY__"+ Alias: "__REMOTE_LIGHT_QUERY__" + Startup Cost: 0.00 + Total Cost: 0.00 + Plan Rows: 0 + Plan Width: 0 + Nodes: "datanode2" (1 row) |
禁止开销估计的执行计划:
1 2 3 4 5 6 |
EXPLAIN(COSTS FALSE)SELECT * FROM tpcds.customer_address_p1 WHERE ca_address_sk=10000; QUERY PLAN -------------------------------------------- Data Node Scan on "__REMOTE_LIGHT_QUERY__" Node/s: datanode2 (2 rows) |
带有聚集函数查询的执行计划:
1 2 3 4 5 6 7 8 9 10 |
EXPLAIN SELECT SUM(ca_address_sk) FROM tpcds.customer_address_p1 WHERE ca_address_sk<10000; QUERY PLAN --------------------------------------------------------------------------------------- Aggregate (cost=18.19..14.32 rows=1 width=4) -> Streaming (type: GATHER) (cost=18.19..14.32 rows=3 width=4) Node/s: All datanodes -> Aggregate (cost=14.19..14.20 rows=3 width=4) -> Seq Scan on customer_address_p1 (cost=0.00..14.18 rows=10 width=4) Filter: (ca_address_sk < 10000) (6 rows) |
删除表tpcds.customer_address_p1:
1
|
DROP TABLE tpcds.customer_address_p1; |
对ANALYZE语句执行EXPLAIN PERFORMANCE:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 |
EXPLAIN PERFORMANCE ANALYZE t2_dist_row; QUERY EXEC INFO ----------------------------------------------------------------------- lock FirstCN: coordinator1: actual time=0.240 loops=1 estimate rows: actual time=[datanode3 0.000, datanode1 0.001] coordinator1: actual time=0.000 loops=1 datanode1: actual time=0.001 loops=1 datanode2: actual time=0.000 loops=1 datanode3: actual time=0.000 loops=1 sample rows: actual time=[datanode1 5.109, coordinator1 119.838] coordinator1: actual time=119.838 loops=1 datanode1: actual time=5.109 loops=1 datanode2: actual time=5.621 loops=1 datanode3: actual time=5.342 loops=1 fetch global stats: coordinator1: actual time=8.501 loops=1 calc stats: actual time=[datanode3 80.794, datanode2 109.155] coordinator1: actual time=97.452 loops=1 datanode1: actual time=94.375 loops=1 datanode2: actual time=109.155 loops=1 datanode3: actual time=80.794 loops=1 calc column stats: actual time=[datanode2 0.938, datanode3 9.811] coordinator1: actual time=5.162 loops=2 datanode1: actual time=1.453 loops=2 datanode2: actual time=0.938 loops=2 datanode3: actual time=9.811 loops=2 calc index stats: actual time=[datanode3 12.392, coordinator1 36.113] coordinator1: actual time=36.113 loops=1 datanode1: actual time=15.933 loops=1 datanode2: actual time=13.419 loops=1 datanode3: actual time=12.392 loops=1 calc expr stats: actual time=[datanode3 41.665, datanode2 78.442] coordinator1: actual time=55.608 loops=1 datanode1: actual time=63.179 loops=1 datanode2: actual time=78.442 loops=1 datanode3: actual time=41.665 loops=1 sync stats: coordinator1: actual time=7.906 loops=1 General Tracks CN build CN connection: coordinator1: actual time=0.002 loops=1 CN build DN connection: coordinator1: actual time=0.070 loops=1 -> execute ddl on other CN: coordinator1: actual time=0.001 loops=1 -> execute ddl on other DN: coordinator1: actual time=0.000 loops=1 Query Id: 72902018968225366 Total runtime: 242.211 ms (48 rows) |