创建Spark作业

Spark作业编辑页面支持执行Spark作业，为用户提供全托管式的Spark计算服务。

在总览页面，单击Spark作业右上角的“创建作业”，或在Spark作业管理页面，单击右上角的“创建作业”，均可进入Spark作业编辑页面。

进入Spark作业编辑页面，页面会提示系统将创建DLI临时数据桶。该桶用于存储使用DLI服务产生的临时数据，例如：作业日志、作业结果等。如果不创建该桶，将无法查看作业日志。可以，实现定时删除OBS桶中的对象或者定时转换对象的存储类别。桶名称为系统默认。

如果不需要创建DLI临时数据桶，并且希望不再收到该提示，可以勾选“下次不再提示”并单击“取消”。

请先将所要依赖的程序包通过“数据管理>程序包管理”页面上传至对应的OBS桶中。具体操作请参考创建程序包。

左侧导航栏

在创建Spark作业页面，左侧导航栏包括“队列”页签和“程序包”页签。

表1 左侧导航栏说明
序号	页签/按键名称	描述
1	队列	显示已有的队列。
2	程序包	显示已有的程序包。
3	创建	创建队列/程序包。
4	刷新	包括刷新已有的队列和程序包列表。
5	搜索	在程序包页签，可以输入程序包名称进行搜索。

作业编辑窗口

在作业编辑窗口，可以选择使用“表单模式”或者“API模式”进行参数设置。

以下以“表单模式”页面进行说明，“API模式”即采用API接口模式设置参数及参数值，具体请参考《数据湖探索API参考》。

选择运行队列：具体参数请参考表2。

表2 运行队列参数说明
参数名称	参数描述
所属队列	下拉选择要使用的队列。

作业配置：具体参数请参考表3。

表3 作业配置参数说明
参数名称	参数描述
作业名称	设置作业名称。
应用程序	选择需要执行的程序包。包括“.jar”和“.py”两种类型。
主类	输入主类名称。当应用程序类型为“.jar”时，主类名称不能为空。
应用程序参数	用户自定义参数，多个参数请以Enter键分隔。
Spark参数	以“key=value”的形式设置提交Spark作业的属性，多个参数以Enter键分隔。
依赖jar包	运行spark作业依赖的jars。
依赖Python文件	运行spark作业依赖的py-files。
其他依赖文件	运行spark作业依赖的其他files。
依赖分组	在创建程序包时，如果选择了分组，在此处选择对应的分组，则可以同时选中该分组中的所有程序包和文件。创建程序包操作请参考创建程序包。
访问元数据	是否通过Spark作业访问元数据。具体操作请参考《数据湖探索开发指南》。
是否重试	作业失败后是否进行重试。选择“是”需要配置以下参数： “最大重试次数”：设置作业失败重试次数，最大值为“100”。
高级配置	暂不配置现在配置：包括以下两项参数选择依赖资源：具体参数请参考表4。计算资源规格：具体参数请参考表5。

表4 选择依赖资源参数说明
参数名称	参数描述
Module名称	DLI系统提供的用于执行跨源作业的依赖模块，访问各个不同的服务，选择不同的模块： CloudTable/MRS HBase: sys.datasource.hbase CloudTable/MRS OpenTSDB: sys.datasource.opentsdb RDS MySQL: sys.datasource.rds RDS PostGre: sys.datasource.rds DWS: sys.datasource.dws CSS: sys.datasource.css
资源包	运行spark作业依赖的jar包。

表5 计算资源规格参数说明
参数名称	参数描述
资源规格	下拉选择所需的资源规格。系统提供3种资源规格供您选择。资源规格中如下配置项支持修改： Executor内存 Executor CPU核数 Executor个数 driver CPU核数 driver内存最终配置结果以修改后数据为准。
Executor内存	在所选资源规格基础上自定义Executor内存规格。
Executor CPU核数	在所选资源规格基础上自定义Executor CPU核数。
Executor个数	在所选资源规格基础上自定义Executor个数。
driver CPU核数	在所选资源规格基础上自定义Driver CPU核数。
driver内存	在所选资源规格基础上自定义Driver内存规格。

Spark作业参数计算：

父主题： Spark作业管理

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消