文档首页/ MapReduce服务 MRS/ 组件操作指南(普通版)/ 使用MapReduce/ MapReduce常见问题/ ResourceManager进行主备切换后,任务中断后运行时间过长
更新时间:2024-08-16 GMT+08:00

ResourceManager进行主备切换后,任务中断后运行时间过长

问题

在MapReduce任务运行过程中,ResourceManager发生主备切换,切换完成后,MapReduce任务继续执行,此时任务的运行时间过长。

回答

因为ResourceManager HA已启用,但是Work-preserving RM restart功能未启用。

如果Work-preserving RM restart功能未启用,ResourceManager切换时container会被kill,然后导致Application Master超时。Work-preserving RM restart功能介绍请参见:

MRS 3.2.0之前版本:http://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html

MRS 3.2.0及之后版本:https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html

可以通过如下方式启用Work-preserving RM restart功能:

参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中“yarn.resourcemanager.work-preserving-recovery.enabled”,设置参数值为“true”。保存配置后,在业务低峰期重启Yarn配置过期的实例。