Yarn模式下动态资源调度
操作场景
对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。
动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。
操作步骤
- 需要先配置External shuffle service,具体请参考使用External Shuffle Service提升性能。
- 在“spark-defaults.conf”配置文件中必须添加配置项“spark.dynamicAllocation.enabled”,并将该参数的值设置为“true”,表示开启动态资源调度功能。默认情况下关闭此功能。
- 下面是一些可选配置,如表1所示。
表1 动态资源调度参数 配置项
说明
默认值
spark.dynamicAllocation.minExecutors
最小Executor个数。
0
spark.dynamicAllocation.initialExecutors
初始Executor个数。
spark.dynamicAllocation.minExecutors
spark.dynamicAllocation.maxExecutors
最大executor个数。
Integer.MAX_VALUE
spark.dynamicAllocation.schedulerBacklogTimeout
调度第一次超时时间。
1(s)
spark.dynamicAllocation.sustainedSchedulerBacklogTimeout
调度第二次及之后超时时间。
spark.dynamicAllocation.schedulerBacklogTimeout
spark.dynamicAllocation.executorIdleTimeout
普通Executor空闲超时时间。
60(s)
spark.dynamicAllocation.cachedExecutorIdleTimeout
含有cached blocks的Executor空闲超时时间。
Integer.MAX_VALUE
- 使用动态资源调度功能,必须配置External Shuffle Service。如果没有使用External Shuffle Service,Executor被杀时会丢失shuffle文件。
- 如果通过spark.executor.instances或者--num-executors指定了Executor的个数,即使配置了动态资源调度功能,动态资源调度功能也不会生效。
- 当前动态资源分配功能开启后,不能完全避免task被分配到即将要移除的executor,但是一般情况下只会导致该task失败,只有同一个task失败4次(可通过spark.task.maxFailures配置)才会导致job失败,所以正常情况下基本不会因为task被分配到即将要移除的executor导致job失败,并且可以通过调大spark.task.maxFailures来减小问题发生的概率。