更新时间:2022-09-29 GMT+08:00
分享

配置AE参数解决数据倾斜

场景概述

如果观察到SQL执行时间较长,可进入SparkUI查看对应SQL的执行状态。

如果观察到一个stage运行时间超过20分钟且只剩余一个task在运行,即为数据倾斜的情况。

图1 数据倾斜样例

操作步骤

  1. 登录数据湖探索管理控制台,选择“SQL作业”,在要修改的作业所在行的“操作”列,单击“编辑”进入SQL编辑器界面。
  2. 在SQL编辑器界面,单击“设置”,在“配置项”尝试添加以下几个Spark参数进行解决。

    参数项如下,冒号前是配置项,冒号后是配置项的值。

    spark.sql.enableToString:false
    spark.sql.adaptive.join.enabled:true
    spark.sql.adaptive.enabled:true
    spark.sql.adaptive.skewedJoin.enabled:true
    spark.sql.adaptive.enableToString:false
    spark.sql.adaptive.skewedPartitionMaxSplits:10

    spark.sql.adaptive.skewedPartitionMaxSplits表示倾斜拆分力度,可不加,默认为5,最大为10。

  3. 单击“执行”重新运行作业,查看优化效果。
分享:

运维指导 所有常见问题

more