更新时间:2024-11-21 GMT+08:00
分享

Spark增量读取Hudi参数规范

规则

增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式

如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询

示例

set hoodie.tableName.consume.mode=INCREMENTAL;--必须设置当前表读取为增量读取模式。
set hoodie.tableName.consume.start.timestamp=20201227153030;--指定初始增量拉取commit。
set hoodie.tableName.consume.end.timestamp=20210308212318;  --指定增量拉取结束commit,如果不指定的话采用最新的commit。
select * from tableName where `_hoodie_commit_time`>'20201227153030' and `_hoodie_commit_time`<='20210308212318'; --结果必须根据start.timestamp和end.timestamp进行过滤,如果没有指定end.timestamp,则只需要根据start.timestamp进行过滤。
set hoodie.tableName.consume.mode=SNAPSHOT;  --使用完增量模式,必须把查询模式重新设置回来。

相关文档