更新时间:2024-11-08 GMT+08:00
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度
操作场景
Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。
该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。
设置spark.sql.shuffle.partitions参数提高并行度
用户可在JDBC中通过set方式设置dli.sql.shuffle.partitions参数。具体方法如下:
Statement st = conn.stamte() st.execute("set spark.sql.shuffle.partitions=20")
父主题: Spark作业开发类