更新时间:2024-01-12 GMT+08:00
分享

SELECT

  • SELECT语句中慎用通配符字段“*”。

    使用通配符字段查询表时,如果因业务或数据库升级导致表结构发生变化,可能出现与业务语句不兼容的情况。

    因此业务应指明所需查询的表字段名称,避免使用通配符。

  • 带有LIMIT的查询语句中必须带有ORDER BY保证有序。

    GaussDB是一种分布式数据库,表数据将分布在多个DN上。

    如果SQL语句中只带有LIMIT,而不带有ORDER BY子句,数据库将会把网络传输较快的DN所发送的(符合查询要求的)结果作为最终结果输出到客户端。

    由于网络传输效率不同时刻可能发生改变,因此导致多次执行该SQL语句时,返回结果表现出不一致的情况。

  • 避免对大字段(如VARCHAR(2000))执行ORDER BY、DISTINCT、GROUP BY、UNION等会引起排序的操作。

    此类操作将消耗大量的CPU和内存资源,执行效率低下。

  • 禁止使用LOCK TABLE语句加锁,仅允许使用 SELECT .. FOR UPDATE语句。

    LOCK TABLE提供多种锁级别,但如果对数据库原理和业务理解不足,误用表锁可能触发死锁,导致集群不可用。

  • 避免在SELECT目标列中使用子查询,可能导致计划无法下推到DN执行,影响执行性能。
  • 考虑使用UNION ALL,少使用UNION,注意考虑去重。

    UNION ALL不去重,少了排序操作,速度相对UNION更快。

    如果没有去重的需求,优先使用UNION ALL。

  • 需要统计表中所有记录数时,不要使用count(col)来替代count(*)。count(*)会统计NULL值(真实行数),而count(col)不会统计。
  • 在执行count(col)时,将“值为NULL”的记录行计数为0。在执行sum(col)时,当所有记录都为NULL时,最终将返回NULL;当不全为NULL时,“值为NULL”的记录行将被计数为0。
  • count(多个字段)时,多个字段名必须用圆括号括起来。例如,count( (col1,col2,col3) )。注意:通过多字段统计行数时,即使所选字段都为NULL,该行也被计数,效果与count(*)一致。
  • count(distinct col)用来计算该列不重复的非NULL的数量, NULL将不被计数。
  • count(distinct (col1,col2,...))用来统计多列的唯一值数量,当所有统计字段都为NULL时,也会被计数,同时这些记录被认为是相同的。
  • 使用连接操作符“ ||”替换concat函数进行字符串连接。因为concat函数生成的执行计划不能下推,导致查询性能严重劣化。
  • 当in(val1, val2, val3…)表达式中字段较多时,建议使用in (values(va11), (val2),(val3)…)语句进行替换。优化器会自动把in约束转换为非关联子查询,从而提升查询性能。
  • 避免频繁使用下使用count()获取大表行数,该操作资源消耗较大,影响并行作业执行效率。

    如果不需要实时的行数统计信息,可以尝试使用如下语句来获取表行数。

    SELECT reltuples FROM pg_class WHERE relname = 'tablename';

    pg_class中所记录的表行数信息只会在对该表执行ANALYZE以后才会更新。

    目前ANALYZE有两种触发条件:

    • 业务主动发送ANALYZE语句,例如:

      --分析连接库中所有表

      ANALYZE;

      --分析指定表

      ANALYZE tablename;

    • 借助AUTO VACUUM机制,在每间隔一定时间或表的增删达到一定行数时触发。间隔时间和增删比例可通过GUC参数设置。

分享:

    相关文档

    相关产品