ALM-18029 NodeManager的yarn-nm-state目录中文件大小之和超过阈值
告警解释
NodeManager每30秒周期性检测实例所在节点的yarn-nm-state目录中文件大小之和是否超过100MB,当超过100MB,则触发该告警。
NodeManager实例所在节点的yarn-nm-state目录中文件大小之和小于100MB后告警清除。

该告警仅适用于MRS 3.6.0及之后版本。
告警属性
告警ID | 告警级别 | 是否可自动清除 |
|---|---|---|
18029 | 重要 | 是 |
告警参数
类别 | 参数名称 | 参数含义 |
|---|---|---|
定位信息 | 来源 | 产生告警的集群名称。 |
服务名 | 产生告警的服务名称。 | |
角色名 | 产生告警的角色名称。 | |
主机名 | 产生告警的主机名。 | |
附加信息 | 触发条件 | NodeManager实例所在节点的yarn-nm-state目录中文件大小之和超过100MB。 |
对系统的影响
可能产生大量无用的Container心跳,影响ResourceManager对整体任务的调度。
可能原因
NodeManager节点Container信息残留。
处理步骤
清理NodeManager节点Container残留信息。
- 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”。单击当前告警详细信息中上报的主机名,获取主机业务IP地址。
- 选择“集群 > 服务 > Yarn > 实例”,勾选与步骤 1IP地址一致的NodeManager实例,选择“更多 > 停止实例”,根据界面提示停止实例。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。

