更新时间:2024-12-25 GMT+08:00
分享

Spark增量读取Hudi参数规范

规则

增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式

如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询

示例

以SQL作业为例:

配置参数

hoodie.tableName.consume.mode=INCREMENTAL // 必须设置当前表读取为增量读取模式
hoodie.tableName.consume.start.timestamp=20201227153030 // 指定初始增量拉取commit
hoodie.tableName.consume.end.timestamp=20210308212318 // 指定增量拉取结束commit,如果不指定的话采用最新的commit

随后执行SQL

select * from tableName where `_hoodie_commit_time`>'20201227153030' and `_hoodie_commit_time`<='20210308212318'; // 结果必须根据start.timestamp和end.timestamp进行过滤,如果没有指定end.timestamp,则只需要根据start.timestamp进行过滤。 

提交其他SQL时,需要清除上述配置参数,避免影响其他任务执行结果。

相关文档