文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
更新时间:2024-09-04 GMT+08:00

ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)

告警解释

系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务数量,并把挂起状态的任务数量和阈值进行比较。当检测到挂起状态的任务数超过阈值时产生该告警。

用户可通过在MRS Manager中的“系统设置 > 阈值配置 > 服务 > Yarn > 队列root正在挂起的任务 > 队列root正在挂起的任务”修改阈值。

当挂起状态任务数小于或等于阈值时,告警清除。

告警属性

告警ID

告警级别

可自动清除

18010

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

可能导致任务堆积,无法及时处理。

可能原因

集群运算能力低于任务提交速率,导致任务提交后无法及时运行处理。

处理步骤

  1. 检查Yarn页面的内存和vcore使用情况。

    查看Yarn原生页面的Memory Used|Memory Total和VCores Used|VCores Total,看是否已经到达或者接近最大值。

    • 是,执行2
    • 否,执行5

  2. 判断当前任务提交数量。

    查看当前运行中的任务是否为正常的提交频率。

    • 是,执行3
    • 否,执行5

  3. 对集群进行扩容。

    根据实际使用情况对集群进行扩容,扩容操作请参考 扩容集群

  4. 扩容完成后查看告警是否消失。

    • 是,处理完毕。
    • 否,执行5

  5. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。