更新时间:2024-07-24 GMT+08:00

增强有限内存下的稳定性

配置场景

当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关的查询,而不出现OutOfMemoryError。

有限内存并不意味着内存无限小,它只是在内存不足于放下大于内存可用总量几倍的数据时,通过利用磁盘来做辅助从而确保查询依然稳定执行,但依然有一些数据是必须留在内存的,如在做涉及到Join的查询时,对于当前用于Join的相同key的数据还是需要放在内存中,如果该数据量较大而内存较小依然会出现OutOfMemoryError。

有限内存下的稳定性涉及到3个子功能:

  1. ExternalSort

    外部排序功能,当执行排序时如果内存不足会将一部分数据溢出到磁盘中。

  2. TungstenAggregate

    新Hash聚合功能,默认对数据调用外部排序进行排序,然后再进行聚合,因此内存不足时在排序阶段会将数据溢出到磁盘,在聚合阶段因数据有序,在内存中只保留当前key的聚合结果,使用的内存较小。

  3. SortMergeJoin、SortMergeOuterJoin

    基于有序数据的等值连接。该功能默认对数据调用外部排序进行排序,然后再进行等值连接,因此内存不足时在排序阶段会将数据溢出到磁盘,在连接阶段因数据有序,在内存中只保留当前相同key的数据,使用的内存较小。

配置描述

参数入口:

在应用提交时通过“--conf”设置这些参数,或者在客户端的“spark-defaults.conf”配置文件中调整如下参数。

表1 参数说明

参数

场景

描述

默认值

spark.sql.tungsten.enabled

/

类型为Boolean。

  • 当设置的值等于true时,表示开启tungsten功能,即逻辑计划等同于开启codegeneration,同时物理计划使用对应的tungsten执行计划。
  • 当设置的值等于false时,表示关闭tungsten功能。

true

spark.sql.codegen.wholeStage

类型为Boolean。

  • 当设置的值等于true时,表示开启codegeneration功能,即运行时对于某些特定的查询将动态生成各逻辑计划代码。
  • 当设置的值等于false时,表示关闭codegeneration功能,运行时使用当前已有静态代码。

true

  1. 开启ExternalSort除配置spark.sql.planner.externalSort=true外,还需配置spark.sql.unsafe.enabled=false或者spark.sql.codegen.wholeStage =false。
  2. 如果您需要开启TungstenAggregate,有如下几种方式:

    将spark.sql.codegen.wholeStage 和spark.sql.unsafe.enabled的值都设置为true(通过配置文件或命令行方式设置)。

    如果spark.sql.codegen.wholeStage 和spark.sql.unsafe.enabled都不为true或者其中一个不为true,只要spark.sql.tungsten.enabled的值设置为true时,TungstenAggregate会开启。