Spark增量读取Hudi参数规范

规则

增量查询之前必须指定当前表的查询为增量查询模式，并且查询后重写设置表的查询模式

如果增量查询完，不重新将表查询模式设置回去，将影响后续的实时查询

示例

以SQL作业为例：

配置参数

hoodie.tableName.consume.mode=INCREMENTAL // 必须设置当前表读取为增量读取模式
hoodie.tableName.consume.start.timestamp=20201227153030 // 指定初始增量拉取commit
hoodie.tableName.consume.end.timestamp=20210308212318 // 指定增量拉取结束commit，如果不指定的话采用最新的commit

随后执行SQL

select * from tableName where `_hoodie_commit_time`>'20201227153030' and `_hoodie_commit_time`<='20210308212318'; // 结果必须根据start.timestamp和end.timestamp进行过滤，如果没有指定end.timestamp，则只需要根据start.timestamp进行过滤。

提交其他SQL时，需要清除上述配置参数，避免影响其他任务执行结果。

父主题： Spark on Hudi开发规范

上一篇：SparkSQL建表参数规范

下一篇：Spark异步任务执行表compaction参数设置规范