当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
问题
当一个NM(NodeManager)处于unhealthy的状态10分钟时,新应用程序失败。
回答
当nodeSelectPolicy为SEQUENCE,且第一个连接到RM的NM不可用时,RM会在“yarn.nm.liveness-monitor.expiry-interval-ms”属性中指定的周期内,一直尝试为同一个NM分配任务。
可以通过两种方式来避免上述问题:
- 使用其他的nodeSelectPolicy,如RANDOM。
- 参考修改集群服务配置参数,进入Yarn“全部配置”页面。在搜索框搜索以下参数,通过“yarn-site.xml”文件更改以下属性:
“yarn.resourcemanager.am-scheduling.node-blacklisting-enabled” = “true”;
“yarn.resourcemanager.am-scheduling.node-blacklisting-disable-threshold” = “0.5”。