文档首页/ MapReduce服务 MRS/ 组件操作指南(LTS版)/ 使用Yarn/ Yarn常见问题/ 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
更新时间:2023-04-28 GMT+08:00

当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败

问题

当一个NM(NodeManager)处于unhealthy的状态10分钟时,新应用程序失败。

回答

当nodeSelectPolicy为SEQUENCE,且第一个连接到RM的NM不可用时,RM会在“yarn.nm.liveness-monitor.expiry-interval-ms”属性中指定的周期内,一直尝试为同一个NM分配任务。

可以通过两种方式来避免上述问题:

  • 使用其他的nodeSelectPolicy,如RANDOM。
  • 参考修改集群服务配置参数,进入Yarn“全部配置”页面。在搜索框搜索以下参数,通过“yarn-site.xml”文件更改以下属性:

    “yarn.resourcemanager.am-scheduling.node-blacklisting-enabled” = “true”

    “yarn.resourcemanager.am-scheduling.node-blacklisting-disable-threshold= “0.5”