文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
更新时间:2024-09-04 GMT+08:00

ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)

告警解释

上个10min的周期内,运行失败的YARN任务数超过阈值。该告警每10min检测一次,如果上个10min周期内,发生YARN任务运行失败的数量大于设定的阈值时候,会发生该告警。如果在下个10min周期,运行失败的Yarn任务数低于阈值时该告警会自动消除。

告警属性

告警ID

告警级别

可自动清除

18013

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

无。

可能原因

提交的YARN作业程序有问题,例如: spark提交任务参数错误导致。

处理步骤

查看运行失败的作业日志,找到作业失败的具体原因,然后修改并重新提交作业。

参考信息

无。