文档首页/ 数据湖探索 DLI/ Spark SQL语法参考/ Spark SQL常用配置项说明
更新时间:2024-07-04 GMT+08:00

Spark SQL常用配置项说明

本章节为您介绍DLI 批作业SQL语法的常用配置项。

表1 常用配置项

名称

默认值

描述

spark.sql.files.maxRecordsPerFile

0

要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。

spark.sql.shuffle.partitions

200

为连接或聚合过滤数据时使用的默认分区数。

spark.sql.dynamicPartitionOverwrite.enabled

false

当前配置设置为“false”时,DLI在覆盖写之前,会删除所有符合条件的分区。例如,分区表中有一个“2021-01”的分区,当使用INSERT OVERWRITE语句向表中写入“2021-02”这个分区的数据时,会把“2021-01”的分区数据也覆盖掉。

当前配置设置为“true”时,DLI不会提前删除分区,而是在运行时覆盖那些有数据写入的分区。

spark.sql.files.maxPartitionBytes

134217728

读取文件时要打包到单个分区中的最大字节数。

spark.sql.badRecordsPath

-

Bad Records的路径。

spark.sql.legacy.correlated.scalar.query.enabled

false

  • 该参数设置为true:
    • 当子查询中数据不重复的情况下,执行关联子查询,不需要对子查询的结果去重。
    • 当子查询中数据重复的情况下,执行关联子查询,会提示异常,必须对子查询的结果做去重处理,比如max(),min()。
  • 该参数设置为false:

    不管子查询中数据重复与否,执行关联子查询时,都需要对子查询的结果去重,比如max(),min(),否则提示异常。

spark.sql.keep.distinct.expandThreshold

-

  • 参数说明:

    对于包含count(distinct)的多维分析(with cube)的查询场景,spark典型的执行计划是将cube使用expand算子来实现,但该操作会导致查询膨胀,为了避免出现查询膨胀,建议执行如下配置:

    • spark.sql.keep.distinct.expandThreshold:

      默认值:-1,即使用Spark默认的expand算子。

      设置具体数值:即代表定义了查询膨胀的阈值(例如512),超过该阈值count(distinct) 使用distinct聚合算子来执行,不再使用expand算子。

    • spark.sql.distinct.aggregator.enabled:强制使用distinct聚合算子的开关。配置为true时不再根据spark.sql.keep.distinct.expandThreshold来判断。
  • 适用场景:包含count(distinct)的多维分析(with cube)的查询场景,可能包含多个count(distinct),且包含cube/roll up
  • 典型场景示例:
    SELECT a1, a2, count(distinct b), count(distinct c) FROM test_distinct group by a1, a2 with cube

spark.sql.distinct.aggregator.enabled

false

spark.sql.optimizer.dynamicPartitionPruning.enabled

true

该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。

  • 配置为true时,代表启用动态分区修剪,SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。
  • 如果SQL查询中包含大量的嵌套left join操作,并且表有大量的动态分区时,这可能会导致在数据解析时消耗大量的内存资源,导致Driver节点的内存不足,并触发频繁的Full GC。

    在这种情况下,可以配置该参数为false即禁用动态分区修剪优化,有助于减少内存使用,避免内存溢出和频繁的Full GC。

    但禁用此优化可能会降低查询性能,禁用后Spark将不会自动修剪掉那些不满足条件的分区。