文档首页/ MapReduce服务 MRS/ 组件操作指南(LTS版)/ 使用Yarn/ Yarn常见问题/ 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
更新时间:2025-07-11 GMT+08:00
分享

当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败

问题

当一个NM(NodeManager)处于unhealthy的状态10分钟时,新应用程序失败。

回答

当nodeSelectPolicy为SEQUENCE,且第一个连接到RM的NM不可用时,RM会在“yarn.nm.liveness-monitor.expiry-interval-ms”属性中指定的周期内,一直尝试为同一个NM分配任务。

可以通过两种方式来避免上述问题:

  • 使用其他的nodeSelectPolicy,如RANDOM。
  • 参考以下操作,通过“yarn-site.xml”文件更改属性。
    1. 登录FusionInsight Manager。

      登录集群Manager具体操作,请参考访问MRS集群Manager

    2. 选择“集群 > 服务 > Yarn > 配置 > 全部配置”。
    3. 搜索并修改以下参数。
      表1 参数配置

      参数

      描述

      参数取值

      yarn.resourcemanager.am-scheduling.node-blacklisting-enabled

      是否开启Yarn资源管理机制中AM的黑名单机制。

      默认值:true。

      true

      yarn.resourcemanager.am-scheduling.node-blacklisting-disable-threshold

      集群中可以加入Yarn资源管理机制黑名单的节点数占集群总节点数目的占比。

      • 默认值:0.34
      • 取值范围:0~1

      0.5

    4. 保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。

相关文档