读取Hudi cow表视图

操作场景

写时复制表（Copy On Write）也简称cow表，使用parquet文件存储数据，内部的更新操作需要通过重写原始parquet文件完成。

优点：读取时，只读取对应分区的一个数据文件即可，较为高效。
缺点：数据写入的时候，需要复制一个先前的副本再在其基础上生成新的数据文件，这个过程比较耗时。且由于耗时，读请求读取到的数据相对就会滞后。

读取Hudi cow表示例

实时视图读取（Hive，SparkSQL为例）：直接读取Hive里面存储的Hudi表即可，${table_name}表示表名称。
```
select count(*) from ${table_name};
```

实时视图读取（Spark dataSource API为例）：和读普通的dataSource表类似。

必须指定查询类型QUERY_TYPE_OPT_KEY为QUERY_TYPE_SNAPSHOT_OPT_VAL，${table_name}表示表名称。

spark.read.format("hudi")
.option(QUERY_TYPE_OPT_KEY, QUERY_TYPE_SNAPSHOT_OPT_VAL) // 指定查询类型为实时视图模式
.load("/tmp/default/cow_bugx/") // 指定读取的Hudi表路径
.createTempView("mycall")
spark.sql("select * from mycall").show(100)

增量视图读取（Hive为例，${table_name}表示表名称）：

set hoodie.${table_name}.consume.mode=INCREMENTAL;  //设置增量读取模式
set hoodie.${table_name}.consume.max.commits=3;  // 指定最大消费的commits数量
set hoodie.${table_name}.consume.start.timestamp=20201227153030;  // 指定初始增量拉取commit
select count(*) from default.${table_name} where `_hoodie_commit_time`>'20201227153030'; // 这个过滤条件必须加且值为初始增量拉取的commit。

增量视图读取（SparkSQL为例，${table_name}表示表名称）：

set hoodie.${table_name}.consume.mode=INCREMENTAL;  //设置增量读取模式
set hoodie.${table_name}.consume.start.timestamp=20201227153030;  // 指定初始增量拉取commit
set hoodie.${table_name}.consume.end.timestamp=20210308212318;  // 指定增量拉取结束commit，如果不指定的话采用最新的commit
select count(*) from default.${table_name} where `_hoodie_commit_time`>'20201227153030'; // 这个过滤条件必须加且值为初始增量拉取的commit。

增量视图读取（Spark dataSource API为例）：

必须指定查询类型QUERY_TYPE_OPT_KEY为增量模式QUERY_TYPE_INCREMENTAL_OPT_VAL

spark.read.format("hudi")  
.option(QUERY_TYPE_OPT_KEY, QUERY_TYPE_INCREMENTAL_OPT_VAL) // 指定查询类型为增量模式
.option(BEGIN_INSTANTTIME_OPT_KEY, "20210308212004")  // 指定初始增量拉取commit
.option(END_INSTANTTIME_OPT_KEY, "20210308212318")  // 指定增量拉取结束commit
.load("/tmp/default/cow_bugx/")  // 指定读取的Hudi表路径
.createTempView("mycall")  // 注册为spark临时表
spark.sql("select * from mycall where `_hoodie_commit_time`>'20210308211131'") // 开始查询，和hive增量查询语句一样
.show(100, false)

读优化视图：cow表读优化视图等同于实时视图。

父主题： Hudi读操作

上一篇：读取Hudi数据概述

下一篇：读取Hudi mor表视图

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

读取Hudi cow表视图

操作场景

读取Hudi cow表示例

相关文档

意见反馈

文档内容是否对您有帮助？