更新时间:2024-11-29 GMT+08:00

提交Streaming作业

操作场景

该任务指导用户通过Hue界面提交Streaming类型的Oozie作业。

操作步骤

  1. 创建工作流,请参考创建工作流
  2. 在工作流编辑页面,选择“数据流”按钮,将其拖到操作区中。
  3. 在弹出的“Streaming”窗口中配置“Mapper”的值,例如“/bin/cat”。配置“Reducer”的值,例如“/usr/bin/wc”。然后单击“添加”。
  4. 单击“文件+”,添加运行所需的文件。

    例如“/user/oozie/share/lib/mapreduce-streaming/hadoop-streaming-xxx.jar”和“/user/oozie/share/lib/mapreduce-streaming/oozie-sharelib-streaming-xxx.jar”(“xxx”表示Jar包版本号,具体以实际环境为准)。

  5. 单击右上角的配置按钮。在打开的配置界面中,单击“删除+”,添加删除目录,例如“/user/admin/examples/output-data/streaming_workflow”。
  6. 单击“属性+”,添加下列属性。

    • 左边框填写属性名称“mapred.input.dir”,右边框填写属性值“/user/admin/examples/input-data/text”。
    • 左边框填写属性名称“mapred.output.dir”,右边框填写属性值“/user/admin/examples/output-data/streaming_workflow”。

  7. 单击Oozie编辑器右上角的

    保存前如果需要修改作业名称(默认为“My Workflow”),可以直接单击该名称进行修改,例如“Streaming-Workflow”。

  8. 保存完成后,单击,提交该作业。

    作业提交后,可通过Hue界面查看作业的详细信息、日志、进度等相关内容。