EXPLAIN
功能描述
显示SQL语句的执行计划。
执行计划将显示SQL语句所引用的表会采用什么样的扫描方式,如:简单的顺序扫描、索引扫描等。如果引用了多个表,执行计划还会显示用到的JOIN算法。
执行计划的最关键的部分是语句的预计执行开销,影响计划生成器估算执行该语句将花费多长的时间。
若指定了ANALYZE选项,则该语句会被执行,然后根据实际的运行结果显示统计数据,包括每个计划节点内时间总开销(毫秒为单位)和实际返回的总行数。这对于判断计划生成器的估计值是否接近实际值非常有用。
注意事项
在指定ANALYZE选项时,语句会被执行。如果用户想使用EXPLAIN分析INSERT,UPDATE,DELETE,CREATE TABLE AS或EXECUTE语句,而不想改动数据(执行这些语句会影响数据),请使用如下方法。
1 2 3 |
START TRANSACTION; EXPLAIN ANALYZE ...; ROLLBACK; |
语法格式
- 显示SQL语句的执行计划,支持多种选项,对选项顺序无要求。
1
EXPLAIN [ ( option [, ...] ) ] statement;
其中选项option子句的语法为。
1 2 3 4 5 6 7 8 9 10 11 12 13
ANALYZE [ boolean ] | ANALYSE [ boolean ] | VERBOSE [ boolean ] | COSTS [ boolean ] | CPU [ boolean ] | DETAIL [ boolean ] | NODES [ boolean ] | NUM_NODES [ boolean ] | BUFFERS [ boolean ] | TIMING [ boolean ] | PLAN [ boolean ] | BLOCKNAME [ boolean ] | FORMAT { TEXT | XML | JSON | YAML }
- 显示SQL语句的执行计划,且要按顺序给出选项。
1
EXPLAIN { [ ANALYZE | ANALYSE ] [ VERBOSE ] | PERFORMANCE } statement;
参数说明
- statement
指定要分析的SQL语句。
- ANALYZE boolean | ANALYSE boolean
显示实际运行时间和其他统计数据。当两个参数同时使用时,在option中排在后面的一个生效。
取值范围:
- TRUE(缺省值):显示实际运行时间和其他统计数据。
- FALSE:不显示。
- VERBOSE boolean
显示有关计划的额外信息。
取值范围:
- TRUE(缺省值):显示额外信息。
- FALSE:不显示。
- COSTS boolean
包括每个规划节点的估计总成本,以及估计的行数和每行的宽度。
取值范围:
- TRUE(缺省值):显示估计总成本和宽度。
- FALSE:不显示。
- CPU boolean
打印CPU的使用情况的信息。需要结合ANALYZE或ANALYSE选项一起使用。
取值范围:
- TRUE(缺省值):显示CPU的使用情况。
- FALSE:不显示。
- DETAIL boolean
打印DN上的信息。需要结合ANALYZE或ANALYSE选项一起使用。
取值范围:
- TRUE(缺省值):打印DN的信息。
- FALSE:不打印。
- NODES boolean
打印query执行的节点信息。
取值范围:
- TRUE(缺省值):打印执行的节点的信息。
- FALSE:不打印。
- NUM_NODES boolean
打印执行中的节点的个数信息。
取值范围:
- TRUE(缺省值):打印DN个数的信息。
- FALSE:不打印。
- BUFFERS boolean
包括缓冲区的使用情况的信息。需要结合ANALYZE或ANALYSE选项一起使用。
取值范围:
- TRUE:显示缓冲区的使用情况。
- FALSE(缺省值):不显示。
- TIMING boolean
包括实际的启动时间和花费在输出节点上的时间信息。需要结合ANALYZE或ANALYSE选项一起使用。
取值范围:
- TRUE(缺省值):显示启动时间和花费在输出节点上的时间信息。
- FALSE:不显示。
- PLAN boolean
是否将执行计划存储在plan_table中。当该选项开启时,会将执行计划存储在plan_table中,不打印到当前屏幕,因此该选项为on时,不能与其他选项同时使用。
取值范围:
- TRUE(缺省值):将执行计划存储在plan_table中,不打印到当前屏幕。执行成功返回EXPLAIN SUCCESS。
- FALSE:不存储执行计划,将执行计划打印到当前屏幕。
- BLOCKNAME boolean
是否显示计划的每个操作所处于的查询块。当该选项开启时,会将每个操作所处于的查询块的名字输出在Query Block列上,方便用户获取查询块名字,并使用Hint修改执行计划:
- TRUE(缺省值):显示计划时,将每个操作所处于的查询块的名字输出在新增列Query Block列上。该选项需要在pretty模式下使用。见指定Hint所处的查询块Queryblock章节。
- FALSE:不对计划显示产生影响。
- FORMAT
指定输出格式。
取值范围:TEXT,XML,JSON和YAML。
默认值:TEXT。
- PERFORMANCE
使用此选项时,即打印执行中的所有相关信息。下述为部分信息描述:
- ex c/r:代表平均每行使用cpu周期数,等于(ex cyc)/(ex row)。
- ex row:执行行数。
- ex cyc:代表使用的cpu周期数。
- inc cyc:代表包含子节点使用的总cpu周期数。
- shared hit:代表算子的share buffer命中情况。
- loops:算子循环执行次数。
- total_calls:生成元素总数。
- remote query poll time stream gather:算子用于侦听各DN数据到达CN的网络poll时间。
- deserialize time:反序列化所需时间。
- estimated time:估计时间。
- Network Poll Time:分布式stream网络通信时,表示libcomm接收侧等待数据耗时。
- Stream Send time:分布式stream网络通信时,表示libcomm或libpq发送数据耗时。
- OS Kernel Send time:分布式stream网络通信时,表示操作系统层发送数据耗时,大于0才会显示。
- Wait Quota time:分布式stream网络通信时,表示libcomm等待对端发送quota流控大小耗时,大于0才会显示。
- Data Serialize time:分布式stream网络通信时,表示数据序列化时间 。
- Data Copy time:分布式stream网络通信时,表示数据复制时间,大于0才会显示。
示例
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 |
--创建SCHEMA。 gaussdb=# CREATE SCHEMA tpcds; --创建表tpcds.customer_address。 gaussdb=# CREATE TABLE tpcds.customer_address ( ca_address_sk INTEGER NOT NULL, ca_address_id CHARACTER(16) NOT NULL ); --向表中插入多条记录。 gaussdb=# INSERT INTO tpcds.customer_address VALUES (5000, 'AAAAAAAABAAAAAAA'),(10000, 'AAAAAAAACAAAAAAA'); --创建一个表tpcds.customer_address_p1。 gaussdb=# CREATE TABLE tpcds.customer_address_p1 AS TABLE tpcds.customer_address; --修改explain_perf_mode为normal。 gaussdb=# SET explain_perf_mode=normal; --显示表简单查询的执行计划。 gaussdb=# EXPLAIN SELECT * FROM tpcds.customer_address_p1; QUERY PLAN -------------------------------------------------- Data Node Scan (cost=0.00..0.00 rows=0 width=0) Node/s: All datanodes (2 rows) --使用ANALYZE选项,在输出中增加运行时间统计。 gaussdb=# EXPLAIN ANALYZE SELECT * FROM tpcds.customer_address_p1; QUERY PLAN -------------------------------------------------------------------------------------------- Data Node Scan (cost=0.00..0.00 rows=0 width=0) (actual time=1.754..3.218 rows=2 loops=1) Node/s: All datanodes Total runtime: 3.272 ms (3 rows) --使用ANALYZE选项和CPU选项,输出CPU的使用信息。 gaussdb=# EXPLAIN (ANALYZE,CPU)SELECT * FROM tpcds.customer_address_p1; QUERY PLAN -------------------------------------------------------------------------------------------------- Data Node Scan (cost=0.00..0.00 rows=0 width=0) (actual time=1.996..2.214 rows=2 loops=1) Node/s: All datanodes (CPU: ex c/r=25694795469106248, ex row=2, ex cyc=51389590938212496, inc cyc=51389590938212496) Total runtime: 2.251 ms (4 rows) --以JSON格式输出的执行计划(explain_perf_mode为normal时)。 gaussdb=# EXPLAIN(FORMAT JSON) SELECT * FROM tpcds.customer_address_p1; QUERY PLAN -------------------------------------- [ + { + "Plan": { + "Node Type": "Data Node Scan",+ "Startup Cost": 0.00, + "Total Cost": 0.00, + "Plan Rows": 0, + "Plan Width": 0, + "Node/s": "All datanodes" + } + } + ] (1 row) --以YAML格式输出的执行计划(explain_perf_mode为normal时)。 gaussdb=# EXPLAIN(FORMAT YAML) SELECT * FROM tpcds.customer_address_p1 WHERE ca_address_sk=10000; QUERY PLAN --------------------------------- - Plan: + Node Type: "Data Node Scan"+ Startup Cost: 0.00 + Total Cost: 0.00 + Plan Rows: 0 + Plan Width: 0 + Node/s: "dn_6005_6006" (1 row) --禁止开销估计的执行计划。 gaussdb=# EXPLAIN(COSTS FALSE)SELECT * FROM tpcds.customer_address_p1 WHERE ca_address_sk=10000; QUERY PLAN ------------------------ Data Node Scan Node/s: dn_6005_6006 (2 rows) --带有聚集函数查询的执行计划。 gaussdb=# EXPLAIN SELECT SUM(ca_address_sk) FROM tpcds.customer_address_p1 WHERE ca_address_sk<10000; QUERY PLAN --------------------------------------------------------------------------------------- Aggregate (cost=18.19..14.32 rows=1 width=4) -> Streaming (type: GATHER) (cost=18.19..14.32 rows=3 width=4) Node/s: All datanodes -> Aggregate (cost=14.19..14.20 rows=3 width=4) -> Seq Scan on customer_address_p1 (cost=0.00..14.18 rows=10 width=4) Filter: (ca_address_sk < 10000) (6 rows) --删除表tpcds.customer_address_p1。 gaussdb=# DROP TABLE tpcds.customer_address_p1; --删除表tpcds.customer_address。 gaussdb=# DROP TABLE tpcds.customer_address; --删除SCHEMA。 gaussdb=# DROP SCHEMA tpcds CASCADE; |