文档首页/ MapReduce服务 MRS/ 用户指南(安卡拉区域)/ 告警参考/ ALM-45639 Flink作业checkpoint完成时间超过阈值
更新时间:2024-11-29 GMT+08:00

ALM-45639 Flink作业checkpoint完成时间超过阈值

告警解释

系统每30秒为周期检查Flink作业CheckPoint完成时间是否超过阈值(默认值:600秒),如果超过阈值则产生告警。作业CheckPoint完成时间小于或等于阈值,告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

45639

次要

业务质量告警

Flink

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

应用名

产生告警的应用名称。

任务名

产生告警的任务名称。

用户名

产生告警的用户名称。

附加信息

ThreshHoldValue

系统当前指标取值满足自定义的告警设置条件的门限值。

CurrentValue

系统当前指标取值满足自定义的告警设置条件的当前值。

对系统的影响

Flink作业CheckPoint完成时间超过阈值,此时有CheckPoint超时并导致CheckPoint失败的风险,需要用户介入来确认原因,是Flink作业级别的告警,对FlinkServer本身无影响。

可能原因

Flink作业CheckPoint完成时间超过阈值时,可能是该作业处于亚健康状态,具体原因可能有:

  • 作业TaskManager内存不足。
  • 状态过大导致CheckPoint时间过长。

处理步骤

  1. 使用具有FlinkServer管理操作权限的用户登录Manager。
  2. 选择“运维 > 告警 > 告警 > ALM-45639 Flink作业checkpoint完成时间超过阈值”,检查该告警的“定位信息”,查看并记录告警上报的任务名。
  3. 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn原生页面。
  4. 根据告警“定位信息”中的任务名找到失败任务,查找并记录失败作业的“application ID”,是否可以在Yarn页面上查看到作业日志。

    图1 作业的“application ID”
    • 是,执行5
    • 否,执行7

  5. 单击失败作业application ID进入作业界面。

    1. 单击作业“Logs”列的“Logs”,查看jobmanager日志。
      图2 单击“Logs”
    2. 单击“Attempt ID”列的ID,单击“Logs”列的“Logs”,查看taskmanager日志。
      图3 单击“Attempt ID”列的ID
      图4 单击“Logs”

      使用具有FlinkServer管理操作权限的用户登录Manager,选择“集群 > 服务 > Flink”,单击“Flink WebUI”后的链接,单击“作业管理”,在作业的“操作”列选择“更多 > 作业详情”也可查看taskmanager日志。

  6. 查看失败作业日志进行故障修复,或联系运维人员,并发送已收集的故障日志信息。操作结束。

若无法在Yarn页面上查看日志,可通过HDFS下载日志。

  1. 返回Manager,选择“集群 > 服务 > HDFS”,单击“NameNode WebUI”后的链接进入HDFS页面,选择“Utilities > Browse the file system”,在“/tmp/logs/用户名/logs/失败任务的application ID”目录下载日志。
  2. 查看失败作业日志进行故障修复,或联系运维人员,并发送已收集的故障日志信息。

告警清除

Flink作业CheckPoint完成时间小于或等于阈值时,则告警恢复,无需手动清除。

参考信息

不涉及。