创建Spark作业

Spark作业编辑页面支持执行Spark作业，为用户提供全托管式的Spark计算服务。

在总览页面，单击Spark作业右上角的“创建作业”，或在Spark作业管理页面，单击右上角的“创建作业”，均可进入Spark作业编辑页面。

进入Spark作业编辑页面，页面会提示系统将创建DLI临时数据桶。该桶用于存储使用DLI服务产生的临时数据，例如：作业日志、作业结果等。如果不创建该桶，将无法查看作业日志。桶名称为系统默认。

如果不需要创建DLI临时数据桶，并且希望不再收到该提示，可以勾选“下次不再提示”并单击“取消”。

前提条件

请先将所要依赖的程序包通过“数据管理>程序包管理”页面上传至对应的OBS桶中。具体操作请参考创建程序包。
创建Spark作业，访问其他外部数据源时，如访问OpenTSDB、HBase、Kafka、DWS、RDS、CSS、CloudTable、DCS Redis、DDS Mongo等，需要先创建跨源连接，打通作业运行队列到外部数据源之间的网络。
- 当前Spark作业支持访问的外部数据源详情请参考跨源连接和跨源分析概述。
- 创建跨源连接操作请参见增强型跨源连接。
  创建完跨源连接后，可以通过“队列管理”页面，单击“操作”列“更多”中的“测试地址连通性”，验证队列到外部数据源之间的网络连通是否正常。详细操作可以参考测试地址连通性。

界面说明

左侧导航栏

在创建Spark作业页面，左侧导航栏包括“队列”页签和“程序包”页签。

表1 左侧导航栏说明
序号	页签/按键	页签/按键名称	描述
1		队列	显示已有的队列。
2		程序包	显示已有的程序包。
3	模板	模板	Spark作业模板。
4		创建	创建队列/程序包。
5		刷新	包括刷新已有的队列和程序包列表。
6		搜索	在程序包页签，可以输入程序包名称进行搜索。

作业编辑窗口

在作业编辑窗口，可以选择使用“表单模式”或者“API模式”进行参数设置。

以下以“表单模式”页面进行说明，“API模式”即采用API接口模式设置参数及参数值，具体请参考《数据湖探索API参考》。

选择运行队列：具体参数请参考表2。

表2 运行队列参数说明
参数名称	参数描述
队列	下拉选择要使用的队列。

作业配置：具体参数请参考表3。

表3 作业配置参数说明
参数名称	参数描述
作业名称	设置作业名称。
应用程序	选择需要执行的程序包。包括“.jar”和“.py”两种类型。
主类	输入主类名称。当应用程序类型为“.jar”时，主类名称不能为空。
应用程序参数	用户自定义参数，多个参数请以Enter键分隔。应用程序参数支持全局变量替换。例如，在“全局配置”>“全局变量”中新增全局变量key为batch_num，可以使用{{batch_num}}，在提交作业之后进行变量替换。
Spark参数	以“key=value”的形式设置提交Spark作业的属性，多个参数以Enter键分隔。 Spark参数value支持全局变量替换。例如，在“全局配置”>“全局变量”中新增全局变量key为custom_class，可以使用"spark.sql.catalog"={{custom_class}}，在提交作业之后进行变量替换。说明： Spark作业不支持自定义设置jvm垃圾回收算法。
作业特性	“所属队列”选择CCE队列时，设置该参数。表示用户作业使用的Spark镜像类型，具体说明如下：基础型：DLI提供的基础镜像，运行非AI相关作业时选择“基础型”。 AI增强型：DLI提供的AI镜像，运行AI相关作业时选择“AI增强型”。自定义镜像：自定义的Spark镜像，需要选择“容器镜像服务”中设置的镜像名称及版本。
依赖jar包	运行spark作业依赖的jars。可以输入jar包名称，也可以输入对应jar包文件的的OBS路径，格式为：obs://桶名/文件夹路径名/包名。
依赖python文件	运行spark作业依赖的py-files。可以输入Python文件名称，也可以输入Python文件对应的OBS路径，格式为：obs://桶名/文件夹路径名/文件名。
其他依赖文件	运行spark作业依赖的其他files。可以输入依赖文件名称，也可以输入对应的OBS路径，格式为：obs://桶名/文件夹路径名/文件名。
依赖分组	在创建程序包时，如果选择了分组，在此处选择对应的分组，则可以同时选中该分组中的所有程序包和文件。创建程序包操作请参考创建程序包。
访问元数据	是否通过Spark作业访问元数据。。
是否重试	作业失败后是否进行重试。选择“是”需要配置以下参数： “最大重试次数”：设置作业失败重试次数，最大值为“100”。
高级配置	暂不配置现在配置：包括以下两项参数选择依赖资源：具体参数请参考表4。计算资源规格：具体参数请参考表5。

表4 选择依赖资源参数说明
参数名称	参数描述
Module名称	DLI系统提供的用于执行跨源作业的依赖模块访问各个不同的服务，选择不同的模块： MRS HBase: sys.datasource.hbase DDS：sys.datasource.mongo MRS OpenTSDB: sys.datasource.opentsdb DWS: sys.datasource.dws RDS MySQL: sys.datasource.rds RDS PostGre: sys.datasource.rds DCS: sys.datasource.redis CSS: sys.datasource.css
资源包	运行spark作业依赖的jar包。

表5 计算资源规格参数说明
参数名称	参数描述
资源规格	下拉选择所需的资源规格。系统提供3种资源规格供您选择。资源规格中如下配置项支持修改： Executor内存 Executor CPU核数 Executor个数 driver CPU核数 driver内存最终配置结果以修改后数据为准。
Executor内存	在所选资源规格基础上自定义Executor内存规格。
Executor CPU核数	在所选资源规格基础上自定义Executor CPU核数。
Executor个数	在所选资源规格基础上自定义Executor个数。
driver CPU核数	在所选资源规格基础上自定义Driver CPU核数。
driver内存	在所选资源规格基础上自定义Driver内存规格。

Spark作业参数计算：

CU数=driver CPU核数+Executor个数*Executor CPU核数
 注意：因为本身DLI集群管理面和driver都会占用一部分CU资源，“Executor个数*Executor CPU核数”实际要小于队列的计算资源CU数。
内存数=driver内存+(Executor个数*Executor内存）

创建Spark作业步骤

在Spark作业编辑页面中，输入相关参数，具体请参考关于Spark作业编辑窗口的说明。
单击Spark作业编辑页面右上方“执行”，提交作业，页面显示“批处理作业提交成功”。
（可选）可在“Spark作业”管理页面查看提交作业的状态及日志。

父主题： Spark作业管理

上一篇：Spark作业管理概述

下一篇：队列管理

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消