文档首页/ MapReduce服务 MRS/ 用户指南(巴黎区域)/ 配置存算分离/ 使用存算分离集群/ Hudi对接OBS文件系统

更新时间：2024-10-11 GMT+08:00

查看PDF

Hudi对接OBS文件系统

使用安装客户端用户登录客户端安装节点。
配置环境变量。

source 客户端安装目录/bigdata_env

source 客户端安装目录/Hudi/component_env

修改配置文件：

vim 客户端安装目录/Hudi/hudi/conf/hdfs-site.xml

<property>
<name>dfs.namenode.acls.enabled</name>
<value>false</value>
</property>

如果是安全集群，使用以下命令用户进行用户认证，如果当前集群未启用Kerberos认证，则无需执行此命令。

kinit 用户名
启动spark-shell，执行下面的命令创建COW表存储到OBS中：

import org.apache.hudi.QuickstartUtils._

import scala.collection.JavaConversions._

import org.apache.spark.sql.SaveMode._

import org.apache.hudi.DataSourceReadOptions._

import org.apache.hudi.DataSourceWriteOptions._

import org.apache.hudi.config.HoodieWriteConfig._

val tableName = "hudi_cow_table"

val basePath = "obs://testhudi/cow_table/"

val dataGen = new DataGenerator

val inserts = convertToStringList(dataGen.generateInserts(10))

val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))

df.write.format("org.apache.hudi").

options(getQuickstartWriteConfigs).

option(PRECOMBINE_FIELD_OPT_KEY, "ts").

option(RECORDKEY_FIELD_OPT_KEY, "uuid").

option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").

option(TABLE_NAME, tableName).

mode(Overwrite).

save(basePath);
使用datasource查看表建立成功，数据正常。

val roViewDF = spark.

read.

format("org.apache.hudi").

load(basePath + "/*/*/*/*")

roViewDF.createOrReplaceTempView("hudi_ro_table")

spark.sql("select * from hudi_ro_table").show()
执行:q退出spark-shell命令行。

父主题： 使用存算分离集群

上一篇：Sqoop对接外部存储系统

下一篇：访问MRS集群上托管的开源组件Web页面

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消