Yarn模式下动态资源调度

对于Spark应用来说，资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务（比如JDBCServer），若分配给它多个Executor，可是却没有任何任务分配给它，而此时有其他的应用却资源紧张，这就造成了很大的资源浪费和资源不合理的调度。

动态资源调度就是为了解决这种场景，根据当前应用任务的负载情况，实时地增减Executor个数，从而实现动态分配资源，使整个Spark系统更加健康。

需要先配置External shuffle service，具体请参考使用External Shuffle Service提升性能。
在“spark-defaults.conf”配置文件中必须添加配置项“spark.dynamicAllocation.enabled”，并将该参数的值设置为“true”，表示开启动态资源调度功能。默认情况下关闭此功能。

下面是一些可选配置，如表1所示。

表1 动态资源调度参数
配置项	说明	默认值
spark.dynamicAllocation.minExecutors	最小Executor个数。	0
spark.dynamicAllocation.initialExecutors	初始Executor个数。	spark.dynamicAllocation.minExecutors
spark.dynamicAllocation.maxExecutors	最大executor个数。	Integer.MAX_VALUE
spark.dynamicAllocation.schedulerBacklogTimeout	调度第一次超时时间。	1(s)
spark.dynamicAllocation.sustainedSchedulerBacklogTimeout	调度第二次及之后超时时间。	spark.dynamicAllocation.schedulerBacklogTimeout
spark.dynamicAllocation.executorIdleTimeout	普通Executor空闲超时时间。	60(s)
spark.dynamicAllocation.cachedExecutorIdleTimeout	含有cached blocks的Executor空闲超时时间。	Integer.MAX_VALUE

使用动态资源调度功能，必须配置External Shuffle Service。如果没有使用External Shuffle Service，Executor被杀时会丢失shuffle文件。
如果通过spark.executor.instances或者--num-executors指定了Executor的个数，即使配置了动态资源调度功能，动态资源调度功能也不会生效。
当前动态资源分配功能开启后，不能完全避免task被分配到即将要移除的executor，但是一般情况下只会导致该task失败，只有同一个task失败4次（可通过spark.task.maxFailures配置）才会导致job失败，所以正常情况下基本不会因为task被分配到即将要移除的executor导致job失败，并且可以通过调大spark.task.maxFailures来减小问题发生的概率。

父主题： Spark Core调优

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消