更新时间:2025-04-22 GMT+08:00
ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
告警解释
上个10min的周期内,运行失败的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务运行失败的数量大于设定的阈值时候,会发生该告警。如果在下个10min周期,运行失败的Yarn任务数低于阈值时该告警会自动消除。
告警属性
告警ID | 告警级别 | 可自动清除 |
|---|---|---|
18013 | 严重 | 是 |
告警参数
参数名称 | 参数含义 |
|---|---|
ServiceName | 产生告警的服务名称。 |
RoleName | 产生告警的角色名称。 |
HostName | 产生告警的主机名。 |
对系统的影响
无。
可能原因
提交的YARN作业程序有问题,例如: spark提交任务参数错误导致。
处理步骤
查看运行失败的作业日志,找到作业失败的具体原因,然后修改并重新提交作业。
参考信息
无。

