ResourceManager进行主备切换后,任务中断后运行时间过长
问题
在MapReduce任务运行过程中,ResourceManager发生主备切换,切换完成后,MapReduce任务继续执行,此时任务的运行时间过长。
回答
因为ResourceManager HA已启用,但是Work-preserving RM restart功能未启用。
如果Work-preserving RM restart功能未启用,ResourceManager切换时container会被kill,然后导致Application Master超时。Work-preserving RM restart功能介绍请参见:
MRS 3.2.0之前版本:http://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html
MRS 3.2.0及之后版本:https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html
可以通过如下方式启用Work-preserving RM restart功能:
参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中“yarn.resourcemanager.work-preserving-recovery.enabled”,设置参数值为“true”。保存配置后,在业务低峰期重启Yarn配置过期的实例。