文档首页> 数据湖探索 DLI> 快速入门> 创建并提交Spark Jar作业
更新时间:2023-06-15 GMT+08:00
分享

创建并提交Spark Jar作业

操作场景

DLI可以查询存储在OBS中的数据,本节操作介绍使用DLI提交Spark Jar进行实时计算的操作步骤。

操作流程

使用DLI提交Spark作业进行实时计算。基本流程如下:

步骤1:上传数据至OBS

步骤2:创建队列

步骤3:创建程序包

步骤4:提交Spark作业

步骤1:上传数据至OBS

参考Spark作业样例代码开发Spark Jar作业程序,编译并打包为“spark-examples.jar”。参考以下操作步骤上传该作业程序。

提交Spark作业之前,需要在OBS中上传数据文件。

  1. 登录管理控制台
  2. 在服务列表中,单击“存储”中的“对象存储服务OBS”,进入OBS管理控制台页面。
  3. 创建桶,这里以桶名“dli-test-obs01”为例。
    1. 单击“创建桶”
    2. 进入“创建桶”页面,选择“区域”,输入“桶名称”。其他参数保持默认值或根据需要选择。

      创建OBS桶时,需要选择与DLI管理控制台相同的区域,不可跨区域执行操作。

    3. 单击“立即创建”。
  4. 单击所建桶“dli-test-obs01”,进入“对象”页面。
  5. 选择左侧列表中的“对象”,选择“上传对象”,将需要上传的文件,例如“spark-examples.jar”上传到指定目录,单击“确定”

    例如,文件上传成功后,待分析的文件路径为“obs://dli-test-obs01/spark-examples.jar”

    • 关于OBS管理控制台更多操作请参考《对象存储服务控制台指南》。
    • OBS上传文件指导,请参见《OBS工具指南》。
    • 针对大文件场景,由于OBS管理控制台对文件大小和数量限制较多,所以推荐使用OBS工具上传大文件,如OBS Browser+或obsutil工具上传。
      • OBS Browser+是一个比较常用的图形化工具,,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。
      • obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务的好的选择。
    您可以通过以下多种方式将文件上传至桶,OBS最终将这些文件以对象的形式存储在桶中。
    表1 OBS上传对象的不同访问方式

    访问方式

    上传对象方法

    控制台

    通过控制台上传对象

    OBS Browser+

    通过OBS Browser+上传对象

    obsutil

    通过obsutil上传对象

    SDK

    使用SDK上传对象 ,具体参考各语言开发指南的上传对象章节

    API

    PUT上传POST上传

步骤2:创建队列

第一次提交Spark作业,需要先创建队列,例如创建名为“sparktest”的队列,队列类型选择为“通用队列”。

  1. 登录DLI管理控制台。

    第一次进入数据湖探索管理控制台需要进行授权,以获取访问OBS的权限。

    至少勾选“Tenant Administrator(全局服务)”权限。

  2. 在DLI管理控制台的左侧导航栏中,选择“资源管理 > 队列管理”
  3. 单击“队列管理”页面右上角“购买队列”进行创建队列。
  4. 创建名为“sparktest”的队列,队列类型选择为“通用队列”。创建队列详细介绍请参考创建队列

  5. 单击“立即购买”,确认配置。
  6. 配置确认无误,单击“提交”完成队列创建。

步骤3:创建程序包

提交Spark作业之前需要创建程序包,例如“spark-examples.jar”。

  1. 在管理控制台左侧,单击“数据管理”>“程序包管理”
  2. “程序包管理”页面,单击右上角“创建”可创建程序包。
  3. “创建程序包”对话框,“包类型”选择“JAR”,“OBS路径”选择步骤1:上传数据至OBS中“spark-examples.jar”的包路径,“分组设置”参数选择为“不分组”。

  4. 单击“确定”,完成创建程序包。

    程序包创建成功后,您可以在“程序包管理”页面查看和选择使用对应的包。

创建程序包详细介绍请参考创建程序包

步骤4:提交Spark作业

  1. 在DLI管理控制台,单击左侧导航栏中的“作业管理”>“Spark作业”,单击“创建作业”,进入创建Spark作业页面。
  2. 在Spark作业编辑页面中,“队列”中选择步骤2:创建队列中创建的队列,“应用程序”选择步骤3:创建程序包创建的程序包。

    其他参数请参考创建Spark作业中关于Spark作业编辑页面的说明。

  3. 单击Spark作业编辑页面右上方“执行”,阅读并同意隐私协议,单击“确定”。提交作业,页面显示“作业提交成功”。

  4. (可选)可到“作业管理”>“Spark作业”页面查看提交作业的状态及日志。

    在DLI管理控制台第一次单击“执行”操作时,需要阅读隐私协议,同意确定后,后续操作将不会再提示。

后续指引

完成Spark Jar作业快速入门操作后,如果您想了解更多关于Spark Jar作业相关操作,建议您参考以下指引阅读。

分类

文档

说明

界面操作

Spark Jar作业管理

提供Spark Jar作业管理界面功能介绍。

Spark程序包管理

针对不同角色用户,您可以通过权限设置分配不同的程序包组或程序包,不同用户之间的作业效率互不影响,保障作业性能。

开发指南

Spark SQL语法参考

提供Spark SQL相关的数据库、表、分区、导入及导出数据、自定义函数、内置函数等语法说明和样例指导。

Spark Jar 相关API

提供Spark Jar相关API的使用说明。

Spark 作业SDK参考

提供执行Spark批处理作业的接口样例说明。

分享:

    相关文档

    相关产品