更新时间:2024-09-04 GMT+08:00
ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
告警解释
系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务数量,并把挂起状态的任务数量和阈值进行比较。当检测到挂起状态的任务数超过阈值时产生该告警。
用户可通过在MRS Manager中的“系统设置 > 阈值配置 > 服务 > Yarn > 队列root正在挂起的任务 > 队列root正在挂起的任务”修改阈值。
当挂起状态任务数小于或等于阈值时,告警清除。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
18010 |
严重 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
Trigger Condition |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
可能导致任务堆积,无法及时处理。
可能原因
集群运算能力低于任务提交速率,导致任务提交后无法及时运行处理。
处理步骤
参考信息
无。
父主题: MRS集群告警处理参考