更新时间:2025-07-01 GMT+08:00
分享

数据一致性篇

  • Hudi表必须配置preCombine字段,

    Spark建表时通过“preCombineField”去指定。

  • Hudi表的分区格式必须统一。

    同一条数据以不同分区风格去写会产生两个不同分区。

    hoodie.datasource.write.hive_style_partitioning = false;

    hoodie.datasource.write.hive_style_partitioning = true;

  • Hudi表的KeyGenerator必须统一。

    从每条数据的_hoodie_record_key字段的值可以看出KeyGenerator是否统一。

    org.apache.hudi.keygen.ComplexKeyGenerator

    org.apache.hudi.keygen.SimpleKeyGenerator

  • 涉及多引擎读写Hudi,Hudi表建议统一小写。
  • 按照选择合适的表服务执行方式的规范去执行表服务,不要随意改动。

相关文档