ALM-18029 NodeManager的yarn-nm-state目录中文件大小之和超过阈值
告警解释
NodeManager每30秒周期性检测实例所在节点的yarn-nm-state目录中文件大小之和是否超过100MB,当超过100MB,则触发该告警。
NodeManager实例所在节点的yarn-nm-state目录中文件大小之和小于100MB后告警清除。
该告警仅适用于MRS 3.6.0及之后版本。
告警属性
|
告警ID |
告警级别 |
是否可自动清除 |
|---|---|---|
|
18029 |
重要 |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息 |
来源 |
产生告警的集群名称。 |
|
服务名 |
产生告警的服务名称。 |
|
|
角色名 |
产生告警的角色名称。 |
|
|
主机名 |
产生告警的主机名。 |
|
|
附加信息 |
触发条件 |
NodeManager实例所在节点的yarn-nm-state目录中文件大小之和超过100MB。 |
对系统的影响
可能产生大量无用的Container心跳,影响ResourceManager对整体任务的调度。
可能原因
NodeManager节点Container信息残留。
处理步骤
清理NodeManager节点Container残留信息。
- 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”。单击当前告警详细信息中上报的主机名,获取主机业务IP地址。
- 选择“集群 > 服务 > Yarn > 实例”,勾选与步骤 1IP地址一致的NodeManager实例,选择“更多 > 停止实例”,根据界面提示停止实例。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。