ALM-18030 NodeManager上Container运行失败率超过阈值

NodeManager每30秒周期性检测实例上Container运行情况，当运行Container的失败率超过阈值，且连续发生3次以上，则触发该告警。

NodeManager实例上运行Container的失败率低于阈值后告警清除。

本章节仅适用于MRS 3.6.0-LTS及之后版本。

告警ID	告警级别	是否可自动清除
18030	紧急（默认阈值为90%）重要（默认阈值为80%）	是

告警ID

告警级别

是否可自动清除

18030

紧急（默认阈值为90%）

重要（默认阈值为80%）

是

影响上层服务（HBase，Spark等）任务执行，可能导致上层业务失败。

检查是否NodeManager自身处理能力到达瓶颈。

登录FusionInsight Manager界面，选择“运维 > 告警 > 告警”。查看并记录当前告警详细信息中上报的NodeManager实例名。
在告警列表中查看是否存在“ALM-18011 NodeManager进程垃圾回收（GC）时间超过阈值”告警，且上报的主机名与步骤 1一致。
- 是，执行步骤 3。
- 否，执行步骤 5。
参考“ALM-18011 NodeManager进程垃圾回收（GC）时间超过阈值”告警处理步骤进行处理。

检查是否NodeManager配置不合理。

在FusionInsight Manager界面，选择“集群 > 服务 > Yarn > 实例”。单击步骤 1获取的主机对应的NodeManager实例名称。
选择“实例配置 > 全部配置 > 系统”，查看NodeManager实例的系统参数配置是否合适，如果不合适请适当调整实例参数后，保存配置，并选择右上角“更多 > 重启实例”，验证密码后重启该实例。
等待5分钟，检查该告警是否恢复。
- 是，处理完毕。
- 否，执行步骤 8。