更新时间:2026-06-11 GMT+08:00
配置Spark客户端对接Hudi
操作场景
本章节主要介绍通过spark-sql使用Hudi功能。
前提条件
- 在Manager界面创建用户并添加hadoop和hive用户组,主组加入hadoop。
配置JDK
默认使用JDK8,需要切换JDK,请参考配置Spark作业运行时使用的JDK版本。
操作步骤
- 下载并安装Hudi客户端,具体请参考安装MRS客户端章节。
目前Hudi集成在Spark中,用户从Manager页面下载Spark客户端即可,例如客户端安装目录为:“/opt/client”。
- 使用root登录客户端安装节点,执行如下命令:
cd /opt/client
- 执行命令加载环境变量:
source bigdata_env
source Hudi/component_env
kinit 创建的用户
- 新创建的用户需要修改密码,更改密码后重新kinit登录。
- 普通模式(未开启kerberos认证)无需执行kinit命令。
- 多服务场景下,在source bigdata_env之后,请先source Spark服务的component_env,再去source Hudi的component_env。
- 启动spark-sql。
父主题: 配置Spark客户端对接数据湖表格式组件