更新时间:2024-06-28 GMT+08:00
聚合算法优化
操作场景
在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。
操作步骤
要启动聚合算法优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。
参数 | 描述 | 默认值 |
|---|---|---|
spark.sql.codegen.aggregate.map.twolevel.enabled | 是否开启聚合算法优化:
| true |
父主题:Spark SQL性能调优

