查看FlinkServer作业健康状况
本章节适用于MRS 3.3.0及之后的版本。
作业健康状态说明
当集群运行大量Flink作业时,为方便用户对每个作业进行健康状态评估,FlinkServer WebUI提供Flink作业健康度管理功能,用户可直接在页面查看当前作业的健康情况,并可一键导出所有作业的健康度信息。作业状态分如下情况:
- 健康:作业运行正常,作业状态健康。
- 亚健康:
- 出现“ALM-45637 Flink作业task持续背压”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
- 出现“ALM-45639 Flink作业checkpoint完成时间超过阈值”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
- 不健康:
- 出现“ALM-45636 Flink作业连续checkpoint失败”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
- 出现“ALM-45638 Flink作业失败重启次数超阈值”告警,根据告警信息修复告警后,需重启该作业,作业自动恢复至健康。
前提条件
- 集群运行正常,并已安装集群客户端。
- 提交作业前,需配置“客户端安装路径/Flink/flink/conf/flink-conf.yaml”文件,开启作业注册到FlinkServer功能和作业告警功能,参数设置如下:
表1 开启作业注册和作业告警功能 参数
值
描述
job.register.enable
true
是否开启作业注册到FlinkServer:
- true:开启
- false:不开启
job.alarm.enable
true
是否开启作业告警:
- true:开启
- false:不开启
通过客户端注册到FlinkServer的作业,如果未开启作业注册到FlinkServer功能,暂不支持在FlinkServer WebUI执行启动、开发、停止等操作。
- 需确保未使用“Session模式”提交作业并且需要指定作业名。
查看作业健康步骤
- 访问Flink WebUI,请参考访问FlinkServer WebUI界面。
- 单击“作业管理”进入作业管理页面。