文档首页 > > 用户指南> 作业管理> Spark作业管理> 创建Spark作业

创建Spark作业

分享
更新时间: 2020/05/12 GMT+08:00

Spark作业编辑页面支持执行Spark作业,为用户提供全托管式的Spark计算服务。

在总览页面,单击Spark作业右上角“创建作业”,或在Spark作业管理页面右上角单击“创建作业”,可进入Spark作业编辑页面。

界面说明

图1 Spark作业编辑页面导航栏
表1 导航栏说明

序号

按键

描述

1

队列

显示已有的队列。

2

程序包

显示已有的程序包。

3

创建

创建队列/程序包。

4

刷新

包括刷新已有的队列和程序包列表。

5

搜索

输入程序包名称进行搜索。

创建Spark作业需要设置以下参数:

  • 选择运行队列:具体参数请参考表2
    图2 创建Spark作业-选择运行队列
    表2 运行队列参数说明

    参数名称

    参数描述

    所属队列

    下拉选择要使用的队列。

  • 作业配置:具体参数请参考表3
    图3 创建Spark作业-作业配置
    表3 作业配置参数说明

    参数名称

    参数描述

    作业名称

    设置作业名称。

    应用程序

    选择需要执行的程序包。

    主类

    输入主类名称。

    应用程序参数

    用户自定义参数,多个参数以逗号分隔。

    Spark参数

    以“key/value”的形式设置提交Spark作业的属性,多个参数以Enter键分隔。详细内容请参见《数据湖探索API参考》>《提交Spark作业相关API》>《创建批处理作业》>“表2 请求参数说明”。

    自定义镜像

    选择在“容器镜像服务”中设置的镜像名称及版本。

    依赖jar包

    运行spark作业依赖的jars。

    依赖Python文件

    运行spark作业依赖的py-files。

    其他依赖文件

    运行spark作业依赖的其他files。

    保存作业日志

    是否保存作业日志。

    选择“是”需要配置以下参数:

    “OBS桶”:选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”

    作业失败重试

    作业失败后是否进行重试。

    选择“是”需要配置以下参数:

    “最大重试次数”:设置作业失败重试次数,最大值为“100”。

    高级配置

    • 暂不配置
    • 现在配置:包括以下两项参数
      • 选择依赖资源:具体参数请参考表4
      • 计算资源规格:具体参数请参考表5
    图4 创建Spark作业-高级配置
    表4 选择依赖资源参数说明

    参数名称

    参数描述

    Module名称

    DLI系统提供的用于执行跨源作业的依赖模块,访问各个不同的服务,选择不同的模块:
    • CloudTable/MRS HBase: sys.datasource.hbase
    • CloudTable/MRS OpenTSDB: sys.datasource.opentsdb
    • RDS MySQL: sys.datasource.rds
    • RDS PostGre: sys.datasource.rds
    • DWS: sys.datasource.dws
    • CSS: sys.datasource.css

    分组名称

    资源包所在分组的名称,默认不分组。

    资源包

    运行spark作业依赖的jar包。

    表5 计算资源规格参数说明

    参数名称

    参数描述

    资源规格

    下拉选择所需的资源规格。系统提供3种资源规格供您选择。资源规格中如下配置项支持修改:

    • Executor内存
    • Executor CPU核数
    • Executor个数
    • driver CPU核数
    • driver内存

    最终配置结果以修改后数据为准。

    Executor内存

    在所选资源规格基础上自定义Executor内存规格。

    Executor CPU核数

    在所选资源规格基础上自定义Executor CPU核数。

    Executor个数

    在所选资源规格基础上自定义Executor个数。

    driver CPU核数

    在所选资源规格基础上自定义Driver CPU核数。

    driver内存

    在所选资源规格基础上自定义Driver内存规格。

创建Spark作业步骤

  1. 在Spark作业编辑页面中,输入相关参数,具体请参考关于图3的说明。
  2. 单击Spark作业编辑页面右上方“执行”,提交作业,页面显示“批处理作业提交成功”。
  3. (可选)可在“Spark作业”页面查看提交作业的状态及日志。

    作业执行成功后,作业记录只保存6小时。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问