本文导读

展开导读

文档首页/ 云数据库 GaussDB/ 开发指南（分布式_2.x）/ 性能调优/ SQL调优指南/ 典型SQL调优点/ SQL自诊断

SQL自诊断

更新时间：2023-10-17 GMT+08:00

用户在执行查询或者执行INSERT/DELETE/UPDATE/CREATE TABLE AS语句时，可能会遇到性能问题。这种情况下，通过查询GS_WLM_SESSION_STATISTICS，GS_WLM_SESSION_HISTORY，GS_WLM_SESSION_QUERY_INFO_ALL视图的warning字段可以获得对应查询可能导致性能问题的告警信息，为性能调优提供参考。

SQL自诊断的告警类型与resource_track_level的设置有关系。如果resource_track_level设置为query，则可以诊断多列/单列统计信息未收集和SQL不下推的告警。如果resource_track_level设置为operator，则可以诊断所有的告警场景。

SQL自诊断的诊断范围与resource_track_cost的设置有关系。当SQL的代价大于resource_track_cost时，SQL才会被诊断。SQL的代价可以通过explain来确认。

SQL自诊断功能受enable_analyze_check参数影响，使用前应确认该开关已打开。

执行语句较多时，可能会由于内存管控导致部分数据无法收集，可以尝试将instr_unique_sql_count设置值调高。

告警场景

目前支持对以下7种导致性能问题的场景上报告警。

多列/单列统计信息未收集

如果存在单列或者多列统计信息（当前特性是实验室特性，使用时请联系华为工程师提供技术支持）未收集，则上报相关告警。调优方法可以参考更新统计信息和统计信息调优。

需要特别注意的是，对于基于OBS外表（当前特性是实验室特性，使用时请联系华为工程师提供技术支持）的查询，如果未收集统计信息也会上报统计信息未收集的告警，但是由于OBS外表（当前特性是实验室特性，使用时请联系华为工程师提供技术支持）的analyze的性能比较差，因此，需要用户对这种场景下告警是否通过analyze收集统计信息，以获取更优的性能，和查询本身的复杂度做权衡。

告警信息示例：

整表的统计信息未收集：

Statistic Not Collect:
    schema_test.t1

单列统计信息未收集：

Statistic Not Collect:
    schema_test.t2(c1,c2)

多列统计信息未收集:

Statistic Not Collect:
    schema_test.t3((c1,c2))

单列和多列统计信息未收集：

Statistic Not Collect:
    schema_test.t4(c1,c2)    schema_test.t4((c1,c2))

SQL不下推
对于不下推的SQL，尽可能详细上报导致不下推的原因。调优方法可以参考案例语句下推调优。
- 对于函数导致的不下推，告警导致不下推的函数名信息；
- 对于不支持下推的语法，会告警对应语法不支持下推，例如：含有With Recursive，Distinct On，row表达式，返回值为record类型的，会告警相应语法不支持下推等等。

告警信息示例：

SQL is not plan-shipping, reason : "With Recursive" can not be shipped"
SQL is not plan-shipping, reason : "Function now() can not be shipped"
SQL is not plan-shipping, reason : "Function string_agg() can not be shipped"

HashJoin中大表做内表

如果在表连接过程中使用了Hashjoin(可以在GS_WLM_SESSION_HISTORY的query_plan字段中查看到)，且连接的内表行数是外表行数的10倍或以上；同时内表在每个DN上的平均行数大于10万行，且发生了下盘，则上报相关告警。调优方法可以参考使用plan hint调优执行计划。

告警信息示例：

PlanNode[7] Large Table is INNER in HashJoin “Vector Hash Aggregate”

大表等值连接使用Nestloop

如果在表连接过程中使用了nestloop(可以在使用plan hint调优执行计划的query_plan字段中查看到)，并且两个表中较大表的行数平均每个DN上的行数大于10万行、表的连接中存在等值连接，则上报相关告警。调优方法可以参考使用plan hint调优执行计划。

告警信息示例：

PlanNode[5] Large Table with Equal-Condition use Nestloop"Nested Loop"

大表Broadcast

如果在Broadcast算子中，平均每DN的行数大于10万行，则告警大表broadcast。调优方法可以参考使用plan hint调优执行计划。

告警信息示例：

PlanNode[5] Large Table in Broadcast "Streaming(type: BROADCAST dop: 1/2)"

数据倾斜

某表在各DN上的分布，存在某DN上的行数是另一DN上行数的10倍或以上，且有DN中的行数大于10万行，则上报相关告警。调优方法可以参考案例选择合适的分布列和数据倾斜调优。

告警信息示例：

PlanNode[6] DataSkew:"Seq Scan", min_dn_tuples:0, max_dn_tuples:524288

估算不准

如果优化器的估算行数和实际行数中的较大值平均每DN行数大于10万行，并且估算行数和实际行数中较大值是较小值的10倍或以上，则上报相关告警。调优方法可以参考使用plan hint调优执行计划。

告警信息示例：

PlanNode[5] Inaccurate Estimation-Rows: "Hash Join" A-Rows:0, E-Rows:52488

规格约束

告警字符串长度上限为2048。如果告警信息超过这个长度（例如存在大量未收集统计信息的超长表名，列名等信息）则不告警，只上报warning：
```
WARNING, "Planner issue report is truncated, the rest of planner issues will be skipped"
```
如果query存在limit节点（即查询语句中包含limit），则不会上报limit节点以下的Operator级别的告警。
对于“数据倾斜”和“估算不准”两种类型告警，在某一个plan树结构下，只上报下层节点的告警，上层节点不再重复告警。这主要是因为这两种类型的告警可能是因为底层触发上层的。例如，如果在scan节点已经存在数据倾斜，那么在上层的hashagg等其他算子很可能也出现数据倾斜。

父主题： 典型SQL调优点

上一篇：典型SQL调优点

下一篇：语句下推调优

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

SQL自诊断

告警场景

规格约束

意见反馈

文档内容是否对您有帮助？

文档反馈