更新时间:2022-12-07 GMT+08:00

Spark作业管理概述

DLI在开源Spark基础上进行了大量的性能优化与服务化改造,兼容Apache Spark生态和接口,执行批处理任务。

DLI还支持使用Spark作业访问DLI元数据。

Spark作业管理主要包括如下功能:

以及查看“使用指南”和“使用视频”。

作业管理页面

在总览页面单击“Spark作业”简介,或在左侧导航栏单击“作业管理”>“Spark作业”,可进入Spark作业管理页面。Spark作业管理页面显示所有的Spark作业,作业数量较多时,系统分页显示,您可以查看任何状态下的作业。

表1 作业管理参数

参数

参数说明

作业ID

所提交Spark作业的ID,由系统默认生成。

名称

所提交Spark作业的名称。

队列

所提交Spark作业所在的队列。

用户名

执行Spark作业的用户名称。

状态

作业的状态信息,包括如下。

  • 启动中:正在启动
  • 运行中:正在执行任务
  • 已失败:session已退出
  • 已成功:session运行成功
  • 恢复中:正在恢复任务

创建时间

每个作业的创建时间,可按创建时间顺序或倒序显示作业列表。

最后修改时间

作业运行完成的时间。

操作

  • 编辑:可修改当前作业配置,重新执行作业。
  • SparkUI:单击后,将跳转至Spark任务运行情况界面。
    说明:
    • 状态为“启动中”的作业不能查看SparkUI界面。
    • 目前DLI配置SparkUI只展示最新的100条作业信息。
  • 终止作业:终止启动中和运行中的作业。
  • 重新执行:重新运行该作业。
  • 归档日志:将作业日志保存到系统创建的DLI临时数据桶中。
  • 导出日志:将日志导出至用户创建的OBS桶中进行查看。
    说明:
    • 用户需要具有创建OBS桶的权限。
    • 当作业状态在“运行中”时,不能导出日志。
  • 提交日志:查看提交作业的日志。
  • Driver日志:查看运行作业的日志。

重新执行作业

“Spark作业”页面,单击对应作业“操作”列中的“编辑”,跳转至“Spark作业编辑”页面,可根据需要修改参数,执行作业。

查找作业

“Spark作业”页面,选择“状态”或“队列”。系统将根据设置的过滤条件,在作业列表显示符合对应条件的作业。

终止作业

“Spark作业”页面,单击对应作业“操作”列中的“更多”>“终止作业”,可停止启动中和运行中的作业。

导出日志

“Spark作业”页面,单击对应作业“操作”列中的“更多”>“导出日志”,在弹窗中输入已创建的OBS桶地址,单击“确定”。