执行SQL作业时产生数据倾斜怎么办？

什么是数据倾斜？

数据倾斜是在SQL作业执行中常见的问题，当数据分布不均匀的情况下，一部分计算节点处理的数据量远大于其他节点，从而影响整个计算过程的处理效率。

例如观察到SQL执行时间较长，进入SparkUI查看对应SQL的执行状态，如图1所示，查看到一个stage运行时间超过20分钟且只剩余一个task在运行，即为数据倾斜的情况。

图1 数据倾斜样例

常见数据倾斜场景

Group By聚合倾斜
 在执行Group By聚合操作时，如果某些分组键对应的数据量特别大，而其他分组键对应的数据量很小，在聚合过程中，数据量大的分组会占用更多的计算资源和时间，导致处理速度变慢，出现数据倾斜。
JOIN 操作倾斜
 在执行表JOIN操作时，参与JOIN的键在某个表中分布极不均匀，导致大量数据集中在少数几个任务中处理，而其他任务则已完成，造成数据倾斜。

Group By数据倾斜解决方案

取部分数据执行select count(*) as sum,Key from tbl group by Key order by sum desc查询具体是哪些key引起的数据倾斜。

然后对于倾斜Key单独做处理，加盐让其先将他分为多个task分别统计，最后再对分开统计结果进行结合统计。

例如：如下SQL示例，假设已知倾斜key为'Key01',导致单个task处理大量数据，做如下处理：

SELECT
  a.Key,
  SUM(a.sum) AS Cnt
FROM
  (
    SELECT
      Key,
      count(*) AS sum
    FROM
      tbl
    GROUP BY
      Key,
      CASE
        WHEN KEY = 'Key01' THEN floor(random () * 200)
        ELSE 0
      END
  ) a
GROUP BY
  a.Key;

JOIN数据倾斜解决方案

登录数据湖探索管理控制台，选择“SQL作业”，在要修改的作业所在行的“操作”列，单击“编辑”进入SQL编辑器界面。
在SQL编辑器界面，单击“设置”，在“配置项”尝试添加以下几个Spark参数进行解决。

参数项如下，冒号前是配置项，冒号后是配置项的值。
```
spark.sql.enableToString:false
spark.sql.adaptive.join.enabled:true
spark.sql.adaptive.enabled:true
spark.sql.adaptive.skewedJoin.enabled:true
spark.sql.adaptive.enableToString:false
spark.sql.adaptive.skewedPartitionMaxSplits:10
```
spark.sql.adaptive.skewedPartitionMaxSplits表示倾斜拆分力度，可不加，默认为5，最大为10。
单击“执行”重新运行作业，查看优化效果。

父主题： SQL作业开发类

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消