数据湖工厂 DLF
数据湖工厂 DLF
- 最新动态
- 产品介绍
-
用户指南
- 环境准备
- IAM权限管理
- 数据管理
- 数据集成
- 数据开发
- 解决方案
- 运维调度
- 配置管理
- 配置
- 使用教程
-
参考
-
节点
- 节点概述
- CDM Job
- DIS Stream
- DIS Dump
- DIS Client
- Rest Client
- Import GES
- MRS Kafka
- Kafka Client
- CS Job
- DLI SQL
- DLI Spark
- DWS SQL
- MRS SparkSQL
- MRS Hive SQL
- MRS Presto SQL
- MRS Spark
- MRS Spark Python
- MRS Flink Job
- MRS MapReduce
- CSS
- Shell
- RDS SQL
- ETL Job
- OCR
- Create OBS
- Delete OBS
- OBS Manager
- Open/Close Resource
- Data Quality Monitor
- Sub Job
- SMN
- Dummy
- For Each
- 表达式
-
节点
- 修订记录
- API参考
- 常见问题
- 产品术语
- 通用参考
本文导读
链接复制成功!
开发一个Spark作业
在本章节用户可以学习到数据开发模块资源管理、作业编辑等功能。
场景说明
用户在使用DLI服务时,大部分时间会使用SQL对数据进行分析处理,有时候处理的逻辑特别复杂,无法通过SQL处理,那么可以通过Spark作业进行分析处理。本章节通过一个例子演示如何在数据开发模块中提交一个Spark作业。
操作流程如下:
- 创建DLI集群,通过DLI集群的物理资源来运行Spark作业。
- 获取Spark作业的演示JAR包,并在数据开发模块中关联到此JAR包。
- 创建数据开发模块作业,通过DLI Spark节点提交Spark作业。
环境准备
获取Spark作业代码
本示例使用的Spark作业代码来自maven库(下载地址:Spark作业代码),下载spark-examples_2.10-1.1.1.jar,此Spark作业是计算π的近似值。
- 获取Spark作业代码JAR包后,将JAR包上传到OBS桶中,存储路径为“s3a://dlfexample/spark-examples_2.10-1.1.1.jar”。
- 在数据开发模块控制台的左侧导航栏,选择“配置管理 > 资源管理”。在数据开发模块中创建一个资源关联到1的JAR包,资源名称为“spark-example”。
图1 创建资源
提交Spark作业
用户需要在数据开发模块中创建一个作业,通过作业的DLI Spark节点提交Spark作业。
- 创建一个DLF空作业,作业名称为“job_spark”。
图2 创建作业
- 然后进入作业开发页面,拖动DLI Spark节点到画布并单击,配置节点的属性。
图3 配置节点属性
关键属性说明:
- DLI集群名称:•已开通数据湖探索服务DLI,并创建Spark集...中创建的Spark集群。
- 作业运行资源:DLI Spark节点运行时,限制最大可以使用的CPU、内存资源。
- 作业主类:DLI Spark节点的main class,本例的main class是“org.apache.spark.examples.SparkPi”。
- Jar包资源:2中创建的资源。
- 作业编排完成后,单击
,测试运行作业。
图4 作业日志(仅参考) - 如果日志运行正常,单击
保存作业。
父主题: 使用教程