更新时间:2024-08-29 GMT+08:00

开发一个MRS Flink作业

本章节介绍如何在数据开发模块上进行MRS Flink作业开发。

场景说明

本教程通过开发一个MRS Flink作业来实现统计单词的个数。

前提条件

  • 具有OBS相关路径的访问权限。
  • 已开通MapReduce服务MRS,并创建MRS集群。

数据准备

  • 下载Flink作业资源包"wordcount.jar",下载地址:https://github.com/huaweicloudDocs/dgc/blob/master/WordCount.jar

    下载的Flink作业资源包需要进行JAR包完整性校验。Windows操作系统下,打开本地命令提示符框,输入如下命令,在本地生成已下载JAR包的SHA256值,其中,“D:\wordcount.jar”为JAR包的本地存放路径和JAR包名,请根据实际情况修改。

    certutil -hashfile D:\wordcount.jar SHA256

    命令执行结果示例,如下所示:

    SHA256 的 D:\wordcount.jar 哈希:
    0859965cb007c51f0d9ddaf7c964604eb27c39e2f1f56e082acb20c8eb05ccc4
    CertUtil: -hashfile 命令成功完成。

    对比所下载JAR包的SHA256值和下面JAR包的SHA256值。如果一致,则表示下载过程不存在篡改和丢包。

    SHA256值:0859965cb007c51f0d9ddaf7c964604eb27c39e2f1f56e082acb20c8eb05ccc4

  • 准备数据文件“in.txt”,内容为一段英文单词。

操作步骤

  1. 将作业资源包和数据文件传入OBS桶中。

    本例中,WordCount.jar文件上传路径为:lkj_test/WordCount.jar;word.txt 文件上传路径为:lkj_test/input/word.txt。

  2. 创建一个数据开发模块空作业,作业名称为“job_MRS_Flink”。

    图1 新建作业

  3. 进入到作业开发页面,拖动“MRS Flink”节点到画布中并单击,配置节点的属性。

    图2 配置MRS Flink节点属性

    参数设置说明:

    --Flink作业名称
    wordcount
    --MRS集群名称
    选择一个MRS集群
    --运行程序参数
    -c    org.apache.flink.streaming.examples.wordcount.WordCount
    --Flink作业资源包
    wordcount
    --输入数据路径
    obs://dlf-test/lkj_test/input/word.txt
    --输出数据路径
    obs://dlf-test/lkj_test/output.txt

    其中:

    obs://dlf-test/lkj_test/input/word.txt为wordcount.jar的传入参数路径,可以把需要统计的单词写到里面;

    obs://dlf-test/lkj_test/output.txt为输出参数文件的路径(如已存在output.txt文件,会报错)。

  4. 单击“测试运行”,执行该MRS Flink作业。
  5. 待测试完成,执行“提交”。
  6. 在“作业监控”界面,查看作业执行结果。
  7. 查看OBS桶中返回的记录(没设置返回可跳过)。