mor表视图读取

mor表同步给Hive后，会在Hive表中同步出：“表名+后缀_rt”和“表名+后缀_ro”两张表。其中后缀为rt表代表实时视图，后缀为ro的表代表读优化视图。例如：同步给Hive的hudi表名为test，同步Hive后hive表中多出两张表分别为test_rt,和test_ro。

实时视图读取（Hive，SparkSQL为例）：直接读取Hive里面存储的后缀为_rt的hudi表即可。
```
select count(*) from test_rt;
```

实时视图读取（Spark dataSource API为例）：和cow表一样，请参考cow表相关操作。

增量视图读取（hive为例）：

set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat; // sparksql 不需要指定
set hoodie.test.consume.mode=INCREMENTAL;
set hoodie.test.consume.max.commits=3;
set hoodie.test.consume.start.timestamp=20201227153030;
select count(*) from default.test_rt where `_hoodie_commit_time`>'20201227153030'; // 结果必须根据start.timestamp和end.timestamp进行过滤，如果没有指定end.timestamp，则只需要根据start.timestamp进行过滤。

增量视图读取（SparkSQL为例）：

set hoodie.test.consume.mode=INCREMENTAL;
set hoodie.test.consume.start.timestamp=20201227153030;  // 指定初始增量拉取commit
set hoodie.test.consume.end.timestamp=20210308212318;  // 指定增量拉取结束commit，如果不指定的话采用最新的commit
select count(*) from test_rt where `_hoodie_commit_time`>'20201227153030' and `_hoodie_commit_time`<='20210308212318'; // 结果必须根据start.timestamp和end.timestamp进行过滤，如果没有指定end.timestamp，则只需要根据start.timestamp进行过滤。

增量视图（Spark dataSource API为例）：和cow表一样，请参考cow表相关操作。
读优化视图读取（Hive，SparkSQL为例）：直接读取Hive里面存储的后缀为_ro的hudi表即可。
```
select count(*) from test_ro;
```

读优化视图读取（Spark dataSource API为例）：和读普通的dataSource表类似。

必须指定查询类型QUERY_TYPE_OPT_KEY 为QUERY_TYPE_READ_OPTIMIZED_OPT_VAL

spark.read.format("hudi")
.option(QUERY_TYPE_OPT_KEY, QUERY_TYPE_READ_OPTIMIZED_OPT_VAL) // 指定查询类型为读优化视图
.load("/tmp/default/mor_bugx/") // 指定读取的hudi表路径
.createTempView("mycall")
spark.sql("select * from mycall").show(100)

父主题： 读操作指导

上一篇：cow表视图读取

下一篇：数据管理维护

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消