更新时间:2022-12-07 GMT+08:00
创建并提交Spark Jar作业
使用DLI提交Spark作业进行实时计算。基本流程如下:
- 打开产品首页。
- 在登录页面输入“帐号名”和“密码”,单击“登录”。
步骤2:上传数据至OBS
开发Spark Jar作业程序,编译并打包为“spark-examples.jar”。参考以下操作步骤上传该作业程序。
提交Spark作业之前,需要在OBS中上传数据文件。
- 在服务列表中,单击“存储”中的“对象存储服务OBS”。
- 进入OBS管理控制台页面。
- 创建一个桶,桶名全局唯一,这里以桶名“dli-test-obs01”为例。
- 单击“创建桶”。
- 进入“创建桶”页面,输入“桶名称”。其他参数保持默认值或根据需要选择。
- 单击“立即创建”。
- 单击所建桶“dli-test-obs01”,进入“概览”页面。
- 单击左侧列表中的“对象”,选择“上传文件”,将需要上传的文件,例如“spark-examples.jar”上传到指定目录,单击“确定”。
例如,文件上传成功后,待分析的文件路径为“obs://dli-test-obs01/spark-examples.jar”。
关于OBS管理控制台更多操作请参考《对象存储服务控制台指南》。
OBS上传文件指导,请参见《OBS工具指南》。
针对大文件场景,由于OBS管理控制台对文件大小和数量限制较多,所以推荐使用OBS工具上传大文件,如OBS Browser+上传。
- OBS Browser+是一个比较常用的图形化工具,,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。
步骤3:登录DLI管理控制台
使用DLI提交Spark作业,需要先进入Spark作业编辑页面。
- 在列表中,选择“数据湖探索 DLI”。
- 进入DLI管理控制台页面。
第一次进入数据湖探索管理控制台需要进行授权,以获取访问OBS的权限。请参考《数据湖探索用户指南》>《全局配置》>《服务授权》。
步骤5:创建程序包
提交Spark作业之前需要创建程序包,例如“spark-examples.jar”。
- 在管理控制台左侧,单击“数据管理”>“程序包管理”。
- 在“程序包管理”页面,单击右上角“创建”可创建程序包。
- 在“创建程序包”对话框,“包类型”选择“JAR”,“OBS路径”选择步骤2:上传数据至OBS中“spark-examples.jar”的包路径,“分组设置”参数选择为“不分组”。
- 单击“确定”,完成创建程序包。
程序包创建成功后,您可以在“程序包管理”页面查看和选择使用对应的包。
创建程序包详细介绍请参考《数据湖探索用户指南》>《创建程序包》。
步骤6:提交Spark作业
- 在DLI管理控制台,单击左侧导航栏中的“作业管理”>“Spark作业”,单击“创建作业”,进入创建Spark作业页面。
- 在Spark作业编辑页面中,“所属队列”选择步骤4:创建队列中创建的队列,“应用程序”选择步骤5:创建程序包创建的程序包。
其他参数请参考《数据湖探索用户指南》>《创建Spark作业》中关于Spark作业编辑页面的说明。
- 单击Spark作业编辑页面右上方“执行”,阅读并同意隐私协议,单击“确定”。提交作业,页面显示“作业提交成功”。
- (可选)可到“作业管理”>“Spark作业”页面查看提交作业的状态及日志。
在DLI管理控制台第一次单击“执行”操作时,需要阅读隐私协议,同意确定后,后续操作将不会再提示。
父主题: 快速入门