更新时间:2024-08-05 GMT+08:00

在本地Windows环境中编包并运行Spark程序

操作场景

在程序代码完成开发后,您可以在Windows环境中运行应用。使用Scala或Java语言开发的应用程序在IDEA端的运行步骤是一样的。

  • Windows环境中目前只提供通过JDBC访问Spark SQL的程序样例代码的运行,其他样例代码暂不提供。
  • 用户需保证Maven已配置华为镜像站中SDK的Maven镜像仓库,具体可参考配置华为开源镜像仓

操作步骤

  1. 获取样例代码。

    下载样例工程的Maven工程源码和配置文件,请参见获取代码样例工程

    将样例代码导入IDEA中。

  1. 获取配置文件。

    从集群的客户端中获取文件。在“$SPARK_HOME/conf”中下载hive-site.xml与spark-defaults.conf文件到本地。

  2. 在HDFS中上传数据。

    1. 在Liunx中新建文本文件data,将如下数据内容保存到data文件中。
      Miranda,32 
      Karlie,23 
      Candice,27
    2. 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /data(hdfs dfs命令有同样的作用),创建对应目录。
    3. 在Linux系统HDFS客户端使用命令hadoop fs -put data /data,上传数据文件。

  3. 在样例代码中配置相关参数。

    将加载数据的sql语句改为“LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD”。

  4. 在程序运行时添加运行参数,分别为hive-site.xml与spark-defaults.conf文件的路径。

  5. 运行程序。