更新时间:2024-08-05 GMT+08:00

Spark2x样例工程介绍

MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。

当前MRS提供以下Spark2x相关样例工程:
表1 Spark2x相关样例工程

样例工程位置

描述

sparknormal-examples/SparkHbasetoCarbonJavaExample

Spark同步HBase数据到CarbonData的应用开发样例代码。

本示例工程中,应用将数据实时写入HBase,用于点查业务。数据每隔一段时间批量同步到CarbonData表中,用于分析型查询业务。

sparknormal-examples/SparkHbasetoHbaseJavaExample

Spark从HBase读取数据再写入HBase的Java/Scala/Python示例程序。

本示例工程中,Spark应用程序实现两个HBase表数据的分析汇总。

sparknormal-examples/SparkHbasetoHbasePythonExample

sparknormal-examples/SparkHbasetoHbaseScalaExample

sparknormal-examples/SparkHivetoHbaseJavaExample

Spark从Hive读取数据再写入到HBase的应用开发样例代码。

sparknormal-examples/SparkHivetoHbasePythonExample

sparknormal-examples/SparkHivetoHbaseScalaExample

sparknormal-examples/SparkJavaExample

Spark Core任务的Java/Python/Scala示例程序。

本工程应用程序实现从HDFS上读取文本数据并计算分析。

sparknormal-examples/SparkPythonExample

sparknormal-examples/SparkSQLJavaExample

sparknormal-examples/SparkLauncherJavaExample

使用Spark Launcher提交作业的Java/Scala示例程序。

本工程应用程序通过org.apache.spark.launcher.SparkLauncher类采用Java/Scala命令方式提交Spark应用。

sparknormal-examples/SparkLauncherScalaExample

sparknormal-examples/SparkOnClickHouseJavaExample

Spark通过ClickHouse JDBC的原生接口,以及Spark JDBC驱动,实现对ClickHouse数据库和表的创建、查询、插入等操作样例代码。

sparknormal-examples/SparkOnClickHousePythonExample

sparknormal-examples/SparkOnClickHouseScalaExample

sparknormal-examples/SparkOnHbaseJavaExample

Spark on HBase场景的Java/Scala/Python示例程序。

本工程应用程序以数据源的方式去使用HBase,将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。

sparknormal-examples/SparkOnHbasePythonExample

sparknormal-examples/SparkOnHbaseScalaExample

sparknormal-examples/SparkOnHudiJavaExample

Spark on Hudi场景的Java/Scala/Python示例程序。

本工程应用程序使用Spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。

sparknormal-examples/SparkOnHudiPythonExample

sparknormal-examples/SparkOnHudiScalaExample

sparknormal-examples/SparkSQLJavaExample

Spark SQL任务的Java/Python/Scala示例程序。

本工程应用程序实现从HDFS上读取文本数据并计算分析。

sparknormal-examples/SparkSQLPythonExample

sparknormal-examples/SparkSQLScalaExample

sparknormal-examples/SparkStreamingKafka010JavaExample

Spark Streaming从Kafka接收数据并进行统计分析的Java/Scala示例程序。

本工程应用程序实时累加计算Kafka中的流数据,统计每个单词的记录总数。

sparknormal-examples/SparkStreamingKafka010PythonExample

sparknormal-examples/SparkStreamingtoHbaseJavaExample010

Spark Streaming读取Kafka数据并写入HBase的Java/Scala/Python示例程序。

本工程应用程序每5秒启动一次任务,读取Kafka中的数据并更新到指定的HBase表中。

sparknormal-examples/SparkStreamingtoHbasePythonExample010

sparknormal-examples/SparkStreamingtoHbaseScalaExample010

sparknormal-examples/SparkStructuredStreamingJavaExample

在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。

sparknormal-examples/SparkStructuredStreamingPythonExample

sparknormal-examples/SparkStructuredStreamingScalaExample

sparknormal-examples/SparkThriftServerJavaExample

通过JDBC访问Spark SQL的Java/Scala示例程序。

本示例中,用户自定义JDBCServer的客户端,使用JDBC连接来进行表的创建、数据加载、查询和删除。

sparknormal-examples/SparkThriftServerScalaExample

sparknormal-examples/StructuredStreamingADScalaExample

使用Structured Streaming,从kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka中。

sparknormal-examples/StructuredStreamingStateScalaExample

Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。