更新时间:2024-11-26 GMT+08:00
分享

使用spark-sql操作Hudi表

本章节仅适用于MRS 3.5.0-LTS及之后版本。

操作场景

本章节主要介绍通过spark-sql使用Hudi功能。

前提条件

在Manager界面创建用户并添加hadoop和hive用户组,主组加入hadoop。

操作步骤

  1. 下载并安装Hudi客户端,具体请参考安装MRS客户端章节。

    目前Hudi集成在Spark中,用户从Manager页面下载Spark客户端即可,例如客户端安装目录为:“/opt/client”。

  2. 使用root登录客户端安装节点,执行如下命令:

    cd /opt/client

  3. 执行命令加载环境变量:

    source bigdata_env

    source Hudi/component_env

    kinit 创建的用户

    • 新创建的用户需要修改密码,更改密码后重新kinit登录。
    • 普通模式(未开启kerberos认证)无需执行kinit命令。
    • 多服务场景下,在source bigdata_env之后,请先source Spark服务的component_env,再去source Hudi的component_env。

  4. 启动spark-sql。

    • 创建Hudi表:

      create table if not exists hudi_table2 (id int,name string,price double) using hudi options (type = 'cow',primaryKey = 'id',preCombineField = 'price');

    • 插入数据:

      insert into hudi_table2 select 1,1,1;

      insert into hudi_table2 select 2,1,1;

    • 更新数据:

      update hudi_table2 set name=3 where id=1;

    • 删除数据:

      delete from hudi_table2 where id=2;

    • 查询数据:

      select * from hudi_table2;

相关文档