文档首页 > > 开发指南> Spark应用开发> 调优程序> Spark Core调优> 设置并行度

设置并行度

分享
更新时间: 2019/04/30 GMT+08:00

操作场景

并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。

查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。

操作步骤

并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。

  • 在会产生shuffle的操作函数内设置并行度参数,优先级最高。
    testRDD.groupByKey(24)
  • 在代码中配置“spark.default.parallelism”设置并行度,优先级次之。
    val conf = new SparkConf()
    conf.set("spark.default.parallelism", 24)
  • “$SPARK_HOME/conf/spark-defaults.conf”文件中配置“spark.default.parallelism”的值,优先级最低。
    spark.default.parallelism    24
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问