更新时间:2024-11-29 GMT+08:00

Flink作业级巡检能力

操作场景

当集群运行大量Flink作业时,为方便用户对每个作业进行健康状态评估,FlinkServer WebUI提供Flink作业健康度管理功能,用户可直接在页面查看当前作业的健康情况,并可一键导出所有作业的健康度信息。作业状态分如下情况:

  • 健康:作业运行正常,作业状态健康。
  • 亚健康:
    • 出现“ALM-45637 Flink作业task持续背压”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
    • 出现“ALM-45639 Flink作业checkpoint完成时间超过阈值”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
  • 不健康:
    • 出现“ALM-45636 Flink作业连续checkpoint失败”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
    • 出现“ALM-45638 Flink作业失败重启次数超阈值”告警,根据告警信息修复告警后,需重启该作业,作业自动恢复至健康。

前提条件

  • 集群运行正常,并已安装集群客户端。
  • 提交作业前,需配置“客户端安装路径/Flink/flink/conf/flink-conf.yaml”文件,开启作业注册到FlinkServer功能和作业告警功能,参数设置如下:
    表1 开启作业注册和作业告警功能

    参数

    描述

    job.register.enable

    true

    是否开启作业注册到FlinkServer:

    • true:开启
    • false:不开启

    job.alarm.enable

    true

    是否开启作业告警:

    • true:开启
    • false:不开启

    通过客户端注册到FlinkServer的作业,若未开启作业注册到FlinkServer功能,暂不支持在FlinkServer WebUI执行启动、开发、停止等操作。

  • 需确保未使用“Session模式”提交作业并且需要指定作业名。

操作步骤

  1. 访问Flink WebUI,请参考访问Flink WebUI
  2. 单击“作业管理”进入作业管理页面。

    • 查看作业健康度
      在作业管理页面查看当前作业的健康状态:
      • 空:作业未运行,无健康状态
      • 绿色图标:健康
      • 黄色图标:亚健康
      • 红色图标:不健康
    • 导出所有作业健康报告

      单击“作业健康报告”,系统会自动将所有作业的健康状态信息导出至本地,包括作业名称,健康度,提交用户,告警信息,配置信息和启动时间等。

      • 健康度为“0”:健康
      • 健康度为“1”:亚健康
      • 健康度为“2”:不健康