更新时间:2022-05-05 GMT+08:00
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度
操作场景
Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。
该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。
设置spark.sql.shuffle.partitions参数提高并行度
用户可在JDBC中通过set方式设置dli.sql.shuffle.partitions参数。具体方法如下:
Statement st = conn.stamte() st,execute("set spark.sql.shuffle.partitions=20")
父主题: Spark作业相关问题
Spark作业相关问题 所有常见问题
- Spark如何将数据写入到DLI表中
- 如何查看DLI Spark作业的实际资源使用情况
- DLI Spark作业是否支持定时周期任务作业
- 通用队列操作OBS表如何设置AK/SK
- 运行Spark作业报java.lang.AbstractMethodError
- Spark作业访问MySQL数据库的方案
- 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库?
- 添加Python包后,找不到指定的Python环境
- 如何在DLI中运行复杂PySpark程序?
- Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误
- Spark作业运行大批量数据时上报作业运行超时异常错误
- Spark SQL语法创建表时是否支持定义主键
- 如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度
more
