更新时间:2025-06-10 GMT+08:00
聚合算法优化
操作场景
在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。
操作步骤
- 安装Spark客户端。
详细操作请参考安装MRS客户端。
- 使用客户端安装用户登录Spark客户端节点。
在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置。
表1 参数介绍 参数
描述
取值示例
spark.sql.codegen.aggregate.map.twolevel.enabled
是否开启聚合算法优化:
- true:开启
- false:不开启
true
父主题: Spark SQL性能调优