文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-18029 NodeManager的yarn-nm-state目录中文件大小之和超过阈值
更新时间:2025-12-11 GMT+08:00
分享

ALM-18029 NodeManager的yarn-nm-state目录中文件大小之和超过阈值

告警解释

NodeManager每30秒周期性检测实例所在节点的yarn-nm-state目录中文件大小之和是否超过100MB,当超过100MB,则触发该告警。

NodeManager实例所在节点的yarn-nm-state目录中文件大小之和小于100MB后告警清除。

该告警仅适用于MRS 3.6.0及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

18029

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

触发条件

NodeManager实例所在节点的yarn-nm-state目录中文件大小之和超过100MB。

对系统的影响

可能产生大量无用的Container心跳,影响ResourceManager对整体任务的调度。

可能原因

NodeManager节点Container信息残留。

处理步骤

清理NodeManager节点Container残留信息。

  1. 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”。单击当前告警详细信息中上报的主机名,获取主机业务IP地址。
  2. 选择“集群 > 服务 > Yarn > 实例”,勾选与步骤 1IP地址一致的NodeManager实例,选择“更多 > 停止实例”,根据界面提示停止实例。
  1. root用户登录产生告警的主机(步骤 1获取的业务IP地址),执行以下命令切换到omm用户。

    su - omm

  2. 执行如下命令清理yarn-nm-state目录下文件。

    rm -rf ${SRV_HOME}/tmp/yarn-nm-recovery/yarn-nm-state/*

  3. 登录FusionInsight Manager页面,选择“集群 > 服务 > Yarn > 实例”,勾选产生告警的NodeManager实例,单击“启动实例”,根据界面提示启动实例。
  4. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 7

  5. 请联系运维人员进行处理。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

相关文档