更新时间:2022-12-07 GMT+08:00

Flink作业详情

创建作业后,用户可以通过查看作业详情,了解如下信息:

查看作业详情

用户作业创建完成并保存后,用户可以单击作业名查看作业的详细信息,包括作业的SQL语句和参数设置信息,如果是 jar作业只可以看到参数设置信息。

  1. 在DLI管理控制台的左侧导航栏中,单击作业管理>Flink作业,进入Flink作业管理页面。
  2. 单击需要查看的作业名称,进入“作业详情”页面。

    “作业详情”页签,用户可以查看作业的SQL语句、参数设置信息。

    以某个Flink SQL作业为例进行说明。
    表1 参数说明

    参数名称

    参数说明

    类型

    作业类型,如Flink SQL作业。

    名称

    Flink作业名称。

    描述

    Flink作业描述信息。

    状态

    Flink作业运行状态。

    运行模式

    如果作业所属队列是共享队列,则作业的运行模式是共享模式。

    如果作业所属队列是自定义的独享队列,则作业的运行模式是独享模式。

    所属队列

    如果作业所属队列是共享队列,则显示共享队列。

    如果作业所属队列是自定义的独享队列,则显示具体队列名称。

    UDF Jar

    作业选择非共享队列,并且配置UDF Jar参数时显示。

    优化参数

    作业添加了自定义参数配置时显示该参数。

    CU数量

    作业配置的CU数量。

    管理单元

    作业配置的管理单元CU数量。

    并行数

    作业配置的同时运行Flink作业的任务数。

    单TM所占CU数

    作业配置的每个TaskManager所占CU数量。

    单TM Slot数

    作业配置的每个TaskManager Slot数量。

    OBS桶

    作业配置了OBS桶显示。当勾选“开启Checkpoint”“保存作业日志”参数后,用于保存Checkpoint和作业运行日志。

    保存作业日志

    开启或关闭。

    作业异常告警

    开启或关闭。

    SMN主题

    作业配置的SMN主题名称。当作业勾选了“作业异常告警”参数时显示。

    异常自动重启

    开启或关闭。

    异常重试最大次数

    异常重试最大次数为无限时显示为“无限”,其余为设置的具体值。

    从Checkpoint恢复

    开启或关闭。

    ID

    作业ID。

    保存点路径

    保存点的OBS存储路径。

    开启Checkpoint

    开启或关闭。

    Checkpoint间隔

    将作业运行的中间结果保存到OBS的间隔时间,单位为秒。

    Checkpoint模式

    Checkpoint 模式:

    • at_least_once:事件至少被处理一次
    • exactly_once:事件仅被处理一次

    空闲状态保留时长

    用于清除GroupBy或Window经过最大保留时间后仍未更新的中间状态。

    脏数据策略

    作业出现脏数据时的处理策略。作业配置脏数据策略时显示该参数。

    忽略。

    抛出异常。

    保存。

    脏数据转储地址

    “脏数据策略”选择“保存”时,保存脏数据的OBS路径。

    创建时间

    作业创建的具体时间。

    更新时间

    作业最近一次更新的时间。

查看作业监控

用户可以通过云监控服务(CES)查看作业数据输入输出的详细信息。

  1. 在DLI管理控制台的左侧导航栏中,单击作业管理>Flink作业,进入Flink作业管理页面。
  2. 单击需要查看的作业名称,进入“作业详情”页面。

    单击页面右上角的作业监控,将跳转至云监控服务(CES)。

    Flink 作业包含如下监控指标。

    表2 Flink作业监控指标

    指标名称

    说明

    Flink作业数据输入速率

    展示用户Flink作业的数据输入速率,供监控和调试使用。单位:条/秒。

    Flink作业数据输出速率

    展示用户Flink作业的数据输出速率,供监控和调试使用。单位:条/秒。

    Flink作业数据输入总数

    展示用户Flink作业的数据输入总数,供监控和调试使用。单位:条。

    Flink作业数据输出总数

    展示用户Flink作业的数据输出总数,供监控和调试使用。单位:条。

    Flink作业字节输入速率

    展示用户Flink作业每秒输入的字节数。单位:字节/秒。

    Flink作业字节输出速率

    展示用户Flink作业每秒输出的字节数。单位:字节/秒。

    Flink作业字节输入总数

    展示用户Flink作业字节的输入总数。单位:字节。

    Flink作业字节输出总数

    展示用户Flink作业字节的输出总数。单位:字节。

    Flink作业CPU使用率

    展示用户Flink作业的CPU使用率。单位:%。

    Flink作业内存使用率

    展示用户Flink作业的内存使用率。单位:%。

    Flink作业最大算子延迟

    展示用户Flink作业的最大算子延迟时间,单位ms。

    Flink作业最大算子反压

    展示用户Flink作业的最大算子反压值,数值越大,反压越严重。

    0:表示OK

    50:表示Low

    100:表示High

查看作业任务列表

用户可以查看作业运行时每个任务的详细信息,例如任务的开始时间、收发字节数和运行时长等。

如果数据为零,表示没有从数据源接收到数据。

  1. 在DLI管理控制台的左侧导航栏中,单击作业管理>Flink作业,进入Flink作业管理页面。
  2. 单击需要查看的作业名称,进入“作业详情”页面。
  3. “任务列表”页签,可以查看任务的节点信息。

    查看算子任务列表,具体参见下表:
    表3 算子任务列表参数

    参数

    说明

    名称

    算子名称。

    持续时间

    算子运行的持续时间。

    最大并行数

    算子中并行的Task的个数。

    任务

    算子的任务有以下几种:

    • 红色数字表示已失败的Task个数。
    • 浅灰色数字表示已取消的Task个数。
    • 黄色数字表示取消中的Task个数。
    • 绿色数字表示已完成的Task个数。
    • 蓝色数字表示运行中的Task个数。
    • 天蓝色数字表示部署中的Task个数。
    • 深灰色数字表示排队中的Task个数。

    状态

    算子任务对应的状态。

    反压状态

    算子的工作负荷状态。包含如下几种状态:

    • OK:表示工作负荷正常。
    • LOW:表示工作负荷略高。DLI处理数据的速度比较快。
    • HIGH:表示工作负荷高。源端输入数据的速度比较慢。

    时延

    指事件从源端算子到达本算子的过程中消耗的时间,单位为毫秒(ms)。

    发送的记录数

    算子发送数据的记录。

    发送的字节数

    算子发送的字节数。

    接受的字节数

    算子接收的字节数。

    接受的记录数

    算子收到数据的记录。

    开始时间

    算子运行开始时间。

    结束时间

    算子运行结束时间。

查看作业执行计划

用户通过查看执行计划了解到运行中的作业的算子流向。

  1. 在DLI管理控制台的左侧导航栏中,单击作业管理>Flink作业,进入Flink作业管理页面。
  2. 单击需要查看的作业名称,进入“作业详情”页面。
  3. 单击“执行计划”,在“执行计划”页签可以查看作业的算子流向。

    单击对应的节点,在页面右侧显示对应的信息。
    • 滚动鼠标滚轮可对流图进行缩放查看。
    • 流图展示当前运行作业的实时算子流图信息。

查看提交作业日志

用户可以通过查看提交日志排查提交作业异常的故障。

  1. 在DLI管理控制台的左侧导航栏中,单击作业管理>Flink作业,进入Flink作业管理页面。
  2. 单击需要查看的作业名称,进入“作业详情”页面。
  3. “提交日志”页签,可以查看提交作业的过程信息。

查看作业运行日志

用户可以通过查看运行日志排查作业运行异常的故障。

  1. 在DLI管理控制台的左侧导航栏中,单击作业管理>Flink作业,进入Flink作业管理页面。
  2. 单击需要查看的作业名称,进入“作业详情”页面。
  3. “运行日志”页签,可以查看运行中作业的JobManager和TaskManager信息。

    JobManager和TaskManager信息每分钟刷新一次,默认展示最近一分钟的运行日志。

    如果作业配置了保存作业日志的OBS桶,更多历史日志信息可以到保存日志的OBS桶中下载查看。

    如果作业没有运行,则无法查看TaskManager信息。