文档首页 > > 用户指南> 操作指南> 作业管理> 监控作业

监控作业

分享
更新时间: 2019/12/03 GMT+08:00

作业创建后,用户可以通过查看作业的如下内容了解作业详情。

查看作业详情

用户创建完作业并运行后,用户可以查看作业的详细信息,包括作业的SQL语句和参数设置信息,如果是自定义作业只可以看到参数设置信息。

  1. 在CS管理控制台的左侧导航栏中,单击“作业管理”,进入作业管理页面。
  2. 在“名称”一列中,单击需要查看的作业名称,进入“作业详情”页面。

    “作业详情”页签,用户可以查看作业的SQL语句、参数设置信息和总费用。
    表1 参数说明

    参数名称

    参数说明

    类型

    作业类型,如Flink SQL作业。

    ID

    作业ID。

    状态

    作业当前状态。

    运行模式

    如果作业所属集群是共享集群,则作业的运行模式是共享模式。

    如果作业所属集群是自定义的独享集群,则作业的运行模式是独占模式。

    作业所属集群

    如果作业所属集群是共享集群,则显示共享集群。

    如果作业所属集群是自定义的独享集群,则显示具体集群名称。

    SPUs

    作业的SPU数。

    并行数

    同时运行CS作业的任务数。

    开启Checkpoint

    将作业运行的中间结果保存到OBS,防止作业异常时,中间结果数据丢失。

    Checkpoint间隔(s)

    “开启Checkpoint”为true时,该参数有效。

    将作业运行的中间结果保存到OBS的间隔时间。

    Checkpoint模式

    “开启Checkpoint”为true时,该参数有效。

    Checkpoint 模式:

    • AtLeastOnce:事件至少被处理一次
    • ExactlyOnce:事件仅被处理一次

    保存作业日志

    将作业的运行日志保存在OBS,以便出现故障时,用户可以通过作业日志定位问题,并解决问题。

    OBS桶

    “开启Checkpoint”为true时或者开启保存作业日志功能时,该参数有效。

    数据转储的OBS桶名称。

    主题名称

    SMN主题名称。如作业出现运行异常以SMN的方式通知用户。

    异常自动重启

    当作业异常时将自动重启并恢复作业。

    空闲状态保留时长

    用于清除GroupBy或Window经过最大保留时间后仍未更新的中间状态。

    创建时间

    作业创建时间。

    开始时间

    作业启动时间。

    企业项目

    显示作业所属的企业项目名称。

    总计费时长

    作业总的计费时长。

查看作业监控

用户可以通过仪表盘查看作业数据输入输出的详细信息。

  1. 在CS管理控制台的左侧导航栏中,单击“作业管理”,进入作业管理页面。
  2. 作业管理页面的“名称”一列中,单击需要查看的作业名称,再单击作业监控页签。

    Spark作业包含如下监控指标:

    表2 Spark作业监控指标

    指标名称

    说明

    InputSize (records/sec)

    Spark作业的输入记录计数。

    ProcessingTime (ms)

    所有mini-batch处理时间分布图。

    SchedulingDelay (ms)

    所有mini-batch调度延迟分布图。

    TotalDelay (ms)

    所有mini-batch调度总延时。

    • 单击按钮,可以手动刷新图表。
    • 选中一个图表,滚动鼠标滚轮可以缩放图标。
    • 只有运行中的作业才能查看监控信息。

    Flink 类型作业包含如下监控指标:

    表3 Flink作业监控指标

    指标名称

    说明

    数据输入速率

    Flink作业数据输入速率,单位:条每秒。

    数据输入总记录数

    Flink作业数据输入总记录数,单位:条。

    数据输入总数

    Flink作业数据输入总字节数,单位:字节。

    数据输出速率

    Flink作业数据输出速率,单位:条每秒。

    数据输出总记录数

    Flink作业数据输出总记录数,单位:条。

    数据输出总数

    Flink作业数据输出总字节数,单位:字节。

    CPU负载百分比

    作业的CPU使用率。

    内存占用百分比

    作业的堆内存使用率。

    • 单击“实时刷新”,可以实时刷新运行中的作业,图表将每10秒更新一次。
    • 单击按钮,弹出添加图表页面,选择需要添加的图表信息。
    • 单击按钮,可以对对应图表进行放大。
    • 单击按钮,可以删除对应的监控指标。

查看作业执行计划

用户通过查看执行计划了解到运行中的作业的算子流向。

Spark作业暂不支持查看作业的执行计划。

  1. 在CS管理控制台的左侧导航栏中,单击“作业管理”,进入作业管理页面。
  2. 作业管理页面的“名称”一列中,单击需要查看的作业名称,再单击“执行计划”页签。

    • 滚动鼠标滚轮或者单击可对流图进行缩放查看。
    • 流图展示当前运行作业的实时算子流图信息。

查看作业任务列表

用户可以查看作业运行时每个任务的详细信息,例如任务的开始时间、收发字节数和运行时长等。

Spark作业暂不支持查看作业的任务列表。

  1. 在CS管理控制台的左侧导航栏中,单击“作业管理”,进入作业管理页面。
  2. 作业管理页面的“名称”一列中,单击需要查看的作业名称,再单击“任务列表”页签。

    1. 查看算子任务列表
      表4 算子任务列表参数

      参数

      说明

      名称

      算子名称。

      持续时间

      算子运行的持续时间。

      并行数

      算子中并行的Task的个数。

      任务

      算子的任务有以下几种:

      • 红色数字表示已失败的Task个数。
      • 浅灰色数字表示已取消的Task个数。
      • 黄色数字表示取消中的Task个数。
      • 绿色数字表示已完成的Task个数。
      • 蓝色数字表示运行中的Task个数。
      • 天蓝色数字表示部署中的Task个数。
      • 深灰色数字表示排队中的Task个数。

      状态

      算子任务对应的状态。

      反压状态

      算子的工作负荷状态。包含如下几种状态:

      • OK:表示工作负荷正常。
      • LOW:表示工作负荷略高。
      • HIGH:表示工作负荷高。

      时延

      指事件从源端算子到达本算子的过程中消耗的时间,单位为毫秒(ms)。

      发送的记录数

      算子发送数据的记录。

      发送的字节数

      算子发送的字节数。

      接收的字节数

      算子接收的字节数。

      收到的记录数

      算子收到数据的记录。

      开始时间

      算子运行开始时间。

      结束时间

      算子运行结束时间。

    2. 单击,查看对应算子的并发任务列表
      表5 Task任务列表参数

      参数

      说明

      开始时间

      Task任务运行开始时间。

      结束时间

      Task任务运行结束时间。

      持续时间

      Task任务运行的持续时间。

      接收的字节数

      Task任务接收的字节数。

      接受的记录数

      Task任务收到的记录。

      发送的字节数

      Task任务发送的字节数。

      发送的记录数

      Task任务发送的记录。

      失败尝试次数

      Task挂掉后恢复尝试次数。

      节点

      算子所在的节点IP

查看作业审计日志

用户可以查看作业的操作记录,例如作业的创建、提交、运行、停止等操作记录。

  1. 在CS管理控制台的左侧导航栏中,单击作业管理,进入“作业管理”页面。
  2. 作业管理页面的“名称”一列中,单击需要查看的作业名称,进入“作业详情”页面。
  3. 单击“审计日志”页签,查看作业的审计日志信息。

    图1 查看作业审计日志

    此处至多展示50条日志,更多审计日志请从云审计服务中查询。如何在云审计服务中查看审计日志,具体操作可参考《云审计服务快速入门》的“查看追踪事件”章节。

    当在审计日志页签没有审计日志信息时,需要开启云审计服务后,才能获取审计日志 。

    1. 单击“点击开启”,弹出CTS授权页面。
    2. 单击“确认”

    用户也可以进入云审计管理控制台开启,如何开启云审计服务,具体操作请参见开启审计服务

    表6 审计日志参数

    参数

    参数说明

    事件名称

    用户操作事件的名称。

    资源名称

    运行作业的名称。

    资源ID

    运行作业的ID。

    事件类型

    对作业操作的类型。

    事件级别

    事件级别分为:

    • incident
    • warning
    • normal

    操作用户

    运行作业的用户账号。

    事件产生时间

    事件产生的时间。

    源IP地址

    操作用户的IP地址。

    操作结果

    用户操作作业后的结果。

查看作业运行日志

用户可以通过查看运行日志排查作业运行异常的故障。

  1. 在CS管理控制台的左侧导航栏中,单击“作业管理”,进入作业管理页面。
  2. 作业管理页面的“名称”一列中,单击需要查看的作业名称,再单击“运行日志”页签。

    可以查看运行中作业的JobManager和TaskManager信息。

    JobManager和TaskManager信息每分钟刷新一次,默认展示最近一分钟的运行日志,用户也可以单击“历史日志”查看更多日志信息。

    如果作业配置了保存作业日志的OBS桶,更多历史日志信息可以到保存日志的OBS桶中下载查看。

    如果作业没有运行,则无法查看TaskManager信息。

查看作业标签

用户可以查看、添加、修改和删除作业标签。

  1. 在CS管理控制台的左侧导航栏中,单击“作业管理”,进入作业管理页面。
  2. 在作业列表“名称”一列中,单击需要查看标签的作业名称,进入作业详情页面。
  3. 单击“标签”页签,显示当前作业的标签信息。

    更多关于作业标签的详细信息,请参见管理作业标签

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区