批作业SQL常用配置项说明
本章节为您介绍DLI 批作业SQL语法的常用配置项。
名称 | 默认值 | 描述 |
|---|---|---|
spark.sql.files.maxRecordsPerFile | 0 | 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 |
spark.sql.shuffle.partitions | 200 | 为连接或聚合过滤数据时使用的默认分区数。 |
spark.sql.dynamicPartitionOverwrite.enabled | false | 当前配置设置为“false”时,DLI在覆盖写之前,会删除所有符合条件的分区。例如,分区表中有一个“2021-01”的分区,当使用INSERT OVERWRITE语句向表中写入“2021-02”这个分区的数据时,会把“2021-01”的分区数据也覆盖掉。 当前配置设置为“true”时,DLI不会提前删除分区,而是在运行时覆盖那些有数据写入的分区。 |
spark.sql.files.maxPartitionBytes | 134217728 | 读取文件时要打包到单个分区中的最大字节数。 |
spark.sql.badRecordsPath | - | Bad Records的路径。 |
dli.sql.sqlasync.enabled | true | DDL和DCL语句是否异步执行,值为“true”时启用异步执行。 |
dli.sql.job.timeout | - | 设置作业运行超时时间,超时取消。单位:秒。 |
spark.sql.keep.distinct.expandThreshold | - |
|
spark.sql.distinct.aggregator.enabled | false | |
spark.sql.optimizer.dynamicPartitionPruning.enabled | true | 该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。 |

