更新时间:2025-06-10 GMT+08:00

聚合算法优化

操作场景

在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。

操作步骤

  1. 安装Spark客户端。

    详细操作请参考安装MRS客户端

  2. 使用客户端安装用户登录Spark客户端节点。

    在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置。

    表1 参数介绍

    参数

    描述

    取值示例

    spark.sql.codegen.aggregate.map.twolevel.enabled

    是否开启聚合算法优化:

    • true:开启
    • false:不开启

    true