更新时间:2023-03-17 GMT+08:00
聚合算法优化
操作场景
在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。
操作步骤
要启动聚合算法优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。
参数 |
描述 |
默认值 |
---|---|---|
spark.sql.codegen.aggregate.map.twolevel.enabled |
是否开启聚合算法优化:
|
true |
父主题: SQL和DataFrame调优