文档首页/ 数据湖探索 DLI/ 用户指南/ 在DataArts Studio开发DLI Spark作业
更新时间:2025-07-24 GMT+08:00
分享

在DataArts Studio开发DLI Spark作业

华为云数据治理中心DataArts Studio提供了一站式数据治理平台,可以实现与DLI服务的对接,从而提供统一的数据集成、数据开发服务,方便企业对全部数据进行管控。

本节操作介绍在DataArts Studio的数据开发模块开发DLI Spark作业的操作步骤。

操作流程

  1. 获取Spark作业的演示JAR包,并在DataArts Studio控制台的数据开发模块中关联到此JAR包。
  2. 在DataArts Studio控制台创建数据开发模块作业,通过DLI Spark节点提交Spark作业。

环境准备

  • DLI资源环境准备
    • 配置DLI作业桶

      使用DLI服务前需配置DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据,例如:作业日志、作业结果。

      具体操作请参考:配置DLI作业桶

    • 准备Jar包并上传OBS桶

      本示例使用的Spark作业代码来自maven库(下载地址:https://repo.maven.apache.org/maven2/org/apache/spark/spark-examples_2.10/1.1.1/spark-examples_2.10-1.1.1.jar),此Spark作业是计算π的近似值。

      获取Spark作业代码JAR包后,将JAR包上传到OBS桶中,本例存储路径为“obs://dlfexample/spark-examples_2.10-1.1.1.jar”

    • 创建弹性资源池并添加通用队列

      弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存),用于灵活应对业务对计算资源变化的需求。

      创建弹性资源池后,您可以在弹性资源池中创建通用队列用于提交Spark作业,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。

      具体操作请参考:创建弹性资源池并添加队列

  • DataArts Studio资源环境准备
    • 购买DataArts Studio实例

      在使用DataArts Studio提交DLI作业前,需要先购买DataArts Studio实例。

      具体操作请参考购买DataArts Studio基础包

    • 进入DataArts Studio实例空间
      1. 购买完成DataArts Studio实例后,单击“进入控制台”。
        图1 进入DataArts Studio实例控制台
      2. 单击“空间管理”,进入数据开发页面。

        购买DataArts Studio实例的用户,系统将默认为其创建一个默认的工作空间“default”,并赋予该用户为管理员角色。您可以使用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。

        如需创建新的空间请参考创建并管理工作空间

        图2 进入DataArts Studio实例空间
        图3 进入DataArts Studio数据开发页面

步骤1:获取Spark作业代码

  1. 获取Spark作业代码JAR包后,将JAR包上传到OBS桶中,存储路径为“obs://dlfexample/spark-examples_2.10-1.1.1.jar”
  2. 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  3. 在数据开发主界面的左侧导航栏,选择配置管理 > 资源管理
  4. 单击“新建资源”,在数据开发模块中创建一个资源关联到1的JAR包,资源名称为“spark-example”

    图4 创建资源

步骤2:提交Spark作业

用户需要在数据开发模块中创建一个作业,通过作业的DLI Spark节点提交Spark作业。

  1. 创建一个数据开发批处理作业,右键单击目录,单击“新建作业”,作业名称为“job_DLI_Spark”

    图5 创建作业

  2. 然后进入作业开发页面,拖动DLI Spark节点到画布并单击,配置节点的属性。

    图6 配置节点属性

    关键属性说明:

    • DLI队列:DLI中创建的DLI队列。
    • 作业运行资源:DLI Spark节点运行时,限制最大可以使用的CPU、内存资源。
    • 作业主类:DLI Spark节点的主类,本例的主类是“org.apache.spark.examples.SparkPi”
    • Spark程序资源包:4中创建的资源。

  3. 作业编排完成后,单击,测试运行作业。

    图7 作业日志(仅参考)

  4. 如果日志运行正常,保存作业并提交版本。

相关文档