更新时间:2024-11-29 GMT+08:00

聚合算法优化

操作场景

在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。

操作步骤

要启动聚合算法优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。

表1 参数介绍

参数

描述

默认值

spark.sql.codegen.aggregate.map.twolevel.enabled

是否开启聚合算法优化:

  • true:开启
  • false:不开启

true