文档首页> 数据湖探索 DLI> 常见问题> Spark作业相关问题> 作业开发> 如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度
更新时间:2023-03-10 GMT+08:00
分享

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度

操作场景

Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。

该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。

设置spark.sql.shuffle.partitions参数提高并行度

用户可在JDBC中通过set方式设置dli.sql.shuffle.partitions参数。具体方法如下:

Statement st = conn.stamte()
st.execute("set spark.sql.shuffle.partitions=20")
分享:

作业开发 所有常见问题

more