更新时间:2024-11-29 GMT+08:00

提交Spark作业

操作场景

该任务指导用户通过Hue界面提交Spark类型的Oozie作业。

操作步骤

  1. 创建工作流,请参考创建工作流
  2. 在工作流编辑页面,选择“Spark 程序”按钮,将其拖到操作区中。
  3. 在弹出的“Spark”窗口配置“Files”,例如“hdfs://hacluster/user/admin/examples/apps/spark/lib/oozie-examples.jar”。配置“jar/py name”,例如“oozie-examples.jar” ,配置完成后单击“添加”。
  4. 配置“Main class”的值。例如“org.apache.oozie.example.SparkFileCopy”
  5. 单击“参数+”,添加输入输出相关参数。

    例如添加:

    • “hdfs://hacluster/user/admin/examples/input-data/text/data.txt”
    • “hdfs://hacluster/user/admin/examples/output-data/spark_workflow”

  6. “Options list”文本框指定spark参数 , 例如“--conf spark.yarn.archive=hdfs://hacluster/user/spark/jars/8.3.1/spark-archive.zip --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=hdfs://hacluster/sparkJobHistory”。

    此处版本号“8.3.1”为示例,可登录FusionInsight Manager界面,单击右上角的,在下拉框中单击“关于”,在弹框中查看Manager版本号。

  7. 单击右上角的配置按钮。配置“Spark Master”的值,例如“yarn-cluster”。配置“Mode”的值,例如“cluster”。
  8. 在打开的配置界面中,单击“删除+”,添加删除目录,例如“hdfs://hacluster/user/admin/examples/output-data/spark_workflow”。
  9. 单击“属性+”,添加oozie使用的sharelib,左边文本框填写属性名称“oozie.action.sharelib.for.spark”,右边文本框填写属性值“spark”
  10. 单击Oozie编辑器右上角的

    保存前如果需要修改作业名称(默认为“My Workflow”),可以直接单击该名称进行修改,例如“Spark-Workflow”。

  11. 保存完成后,单击,提交该作业。

    作业提交后,可通过Hue界面查看作业的详细信息、日志、进度等相关内容。