文档首页/ 数据湖探索 DLI/ 常见问题/ Spark作业相类/ Spark作业开发类/ 如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度
更新时间:2024-11-06 GMT+08:00
分享

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度

操作场景

Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。

该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。

设置spark.sql.shuffle.partitions参数提高并行度

用户可在JDBC中通过set方式设置dli.sql.shuffle.partitions参数。具体方法如下:

Statement st = conn.stamte()
st.execute("set spark.sql.shuffle.partitions=20")

相关文档