更新时间:2024-09-04 GMT+08:00
ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
告警解释
上个10min的周期内,运行失败的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务运行失败的数量大于设定的阈值时候,会发生该告警。如果在下个10min周期,运行失败的Yarn任务数低于阈值时该告警会自动消除。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
18013 |
严重 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
对系统的影响
无。
可能原因
提交的YARN作业程序有问题,例如: spark提交任务参数错误导致。
处理步骤
查看运行失败的作业日志,找到作业失败的具体原因,然后修改并重新提交作业。
参考信息
无。
父主题: MRS集群告警处理参考