当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
问题
当一个NM(NodeManager)处于unhealthy的状态10分钟时,新应用程序失败。
回答
当nodeSelectPolicy为SEQUENCE,且第一个连接到RM的NM不可用时,RM会在“yarn.nm.liveness-monitor.expiry-interval-ms”属性中指定的周期内,一直尝试为同一个NM分配任务。
可以通过两种方式来避免上述问题:
- 使用其他的nodeSelectPolicy,如RANDOM。
- 参考以下操作,通过“yarn-site.xml”文件更改属性。
- 登录FusionInsight Manager。
登录集群Manager具体操作,请参考访问MRS集群Manager。
- 选择“集群 > 服务 > Yarn > 配置 > 全部配置”。
- 搜索并修改以下参数。
表1 参数配置 参数
描述
参数取值
yarn.resourcemanager.am-scheduling.node-blacklisting-enabled
是否开启Yarn资源管理机制中AM的黑名单机制。
默认值:true。
true
yarn.resourcemanager.am-scheduling.node-blacklisting-disable-threshold
集群中可以加入Yarn资源管理机制黑名单的节点数占集群总节点数目的占比。
- 默认值:0.34
- 取值范围:0~1
0.5
- 保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。
- 登录FusionInsight Manager。