文档首页 > > 用户指南> 作业管理> Spark作业管理> 创建Spark作业

创建Spark作业

分享
更新时间: 2020/02/27 GMT+08:00

Spark作业编辑页面支持提交Spark作业,为用户提供全托管式的Spark计算服务。

在总览页面,单击Spark作业右上角,可进入Spark作业编辑页面。

界面说明

图1 Spark作业编辑页面导航栏
表1 导航栏说明

序号

按键

描述

5

隐藏/显示

隐藏/显示导航栏。

6

队列

显示已有的队列。

7

程序包

显示已有的程序包。

8

创建队列/创建程序包

创建队列/程序包。

9

刷新

包括刷新已有的队列和程序包列表。

图2 Spark作业编辑窗口

创建Spark作业需要设置以下参数:

  • 选择运行队列:具体参数请参考表2
  • 作业配置:具体参数请参考表3
  • 选择依赖资源:具体参数请参考表4
  • 计算资源规格:具体参数请参考表5
表2 运行队列参数说明

参数名称

参数描述

所属队列

下拉选择要使用的队列。

表3 作业配置参数说明

参数名称

参数描述

作业名称

设置作业名称。

应用程序

选择需要执行的程序包。

主类

输入主类名称。

应用程序参数

用户自定义参数,多个参数以逗号分隔。

Spark参数

以“key/value”的形式设置提交Spark作业的属性,多个参数以Enter键分隔。详细内容请参见《数据湖探索API参考》>《提交Spark作业相关API》>《创建批处理作业》>“表2 请求参数说明”。

依赖jar包

运行spark作业依赖的jars。

依赖Python文件

运行spark作业依赖的py-files。

其他依赖文件

运行spark作业依赖的其他files。

保存作业日志

是否保存作业日志。

作业失败重试

作业失败后是否进行重试。建议流作业开启重试。

高级配置

  • 暂不配置
  • 现在配置:包括以下两项参数
    • 选择依赖资源:具体参数请参考表4
    • 计算资源规格:具体参数请参考表5
表4 选择依赖资源参数说明

参数名称

参数描述

Module名称

DLI系统提供的用于执行跨源作业的依赖模块,访问各个不同的服务,选择不同的模块:
  • CloudTable/MRS HBase: sys.datasource.hbase
  • CloudTable/MRS OpenTSDB: sys.datasource.opentsdb
  • RDS MySQL: sys.datasource.rds
  • RDS PostGre: sys.datasource.rds
  • DWS: sys.datasource.dws
  • CSS: sys.datasource.css

分组名称

资源包所在分组的名称,默认不分组。

资源包

运行spark作业依赖的jar包。

表5 计算资源规格参数说明

参数名称

参数描述

资源规格

下拉选择所需的资源规格。系统提供3种资源规格供您选择。资源规格中如下配置项支持修改:

  • Executor内存
  • Executor CPU核数
  • Executor个数
  • driver CPU核数
  • driver内存

最终配置结果以修改后数据为准。

Executor内存

在所选资源规格基础上自定义Executor内存规格。

Executor CPU核数

在所选资源规格基础上自定义Executor CPU核数。

Executor个数

在所选资源规格基础上自定义Executor个数。

driver CPU核数

在所选资源规格基础上自定义Driver CPU核数。

driver内存

在所选资源规格基础上自定义Driver内存规格。

操作步骤

  1. 在Spark作业编辑页面中,输入相关参数,具体请参考关于图2的说明。
  2. 单击Spark作业编辑页面右上方“执行”,提交作业,页面显示“批量提交成功”。
  3. (可选)可在“Spark作业”页面查看提交作业的状态及日志。

    作业执行成功后,作业记录只保存6小时。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区