文档首页/ MapReduce服务 MRS/ 开发指南（LTS版）/ Spark2x开发指南（普通模式）/ 开发Spark应用/ 使用Spark执行Hudi样例程序/ 使用Spark执行Hudi样例程序开发思路

更新时间：2025-12-08 GMT+08:00

查看PDF

使用Spark执行Hudi样例程序开发思路

场景说明

本章节介绍如何使用Spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。

详细代码请参考样例代码。

打包项目

通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。

运行Python样例代码无需通过Maven打包。
将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/example/” ）下。

运行任务

登录Spark客户端节点，执行如下命令：
source 客户端安装目录/bigdata_env

source 客户端安装目录/Hudi/component_env
编译构建样例代码后可以使用spark-submit提交命令，执行命令后会依次执行写入、更新、查询、删除等操作：
- 运行Scala样例程序：
  spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala
  
  其中：“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径，“ hoodie_Scala”为Hudi表的表名。
- 运行Python样例程序：
  spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow
  
  其中：“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径，“ hudi_trips_cow”为Hudi表的表名。

父主题： 使用Spark执行Hudi样例程序

上一篇：使用Spark执行Hudi样例程序

下一篇：使用Spark执行Hudi样例程序（Scala）

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消