更新时间:2024-01-03 GMT+08:00
分享

ALM-18006 执行MapReduce任务超时(2.x及以前版本)

告警解释

告警模块每30秒周期性检测MapReduce任务。任务提交后,当检测到MapReduce任务执行时间超过指定时间时,产生该告警。

该告警需要手动清除。

告警属性

告警ID

告警级别

可自动清除

18006

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

Trigger condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

提交的MapReduce任务执行超时,所以无执行结果返回。故障修复后重新执行该任务。

可能原因

执行MapReduce任务需要较长时间。但指定的时间少于所需的执行时间。

处理步骤

  1. 检查时间是否正确设置。

    把“-Dapplication.timeout.interval”设置成较大的值,或者不对参数进行设置。查看MapReduce任务是否能成功执行。
    • 是,执行2.e
    • 否,执行2.b

  2. 检查Yarn服务状态。

    1. 登录MRS集群详情页面,选择“告警管理”。
    2. 在告警列表中,查看是否有“ALM-18000 Yarn服务不可用”产生。
      • 是,执行2.c
      • 否,执行3
    3. 参考ALM-18000 Yarn服务不可用(2.x及以前版本)的处理步骤处理该故障。
    4. 再次执行MapReduce任务命令,查看MapReduce任务是否能成功执行。
      • 是,执行2.e
      • 否,执行4
    5. 在告警列表中,单击该告警“操作”列下面的,手动清除告警。操作结束。

  3. 调整超时阈值。

    在MRS Manager界面,单击“系统设置 > 阈值配置 > 服务 > Yarn > 超时的任务”,增大当前阈值规则的允许超时的任务个数,然后查看本告警是否消除。
    • 是,处理完毕。
    • 否,执行4

  4. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。

分享:

    相关文档

    相关产品