更新时间:2022-12-14 GMT+08:00

Hudi表结构

Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。

Hudi表的数据文件,可以使用操作系统的文件系统存储,也可以使用HDFS这种分布式的文件系统存储。为了后续分析性能和数据的可靠性,一般使用HDFS进行存储。以HDFS存储来看,一个Hudi表的存储文件分为两类。

  • “.hoodie”文件夹中存放了对应的文件合并操作相关的日志文件。

  • 包含_partition_key相关的路径是实际的数据文件和metadata,按分区存储。

    Hudi的数据文件使用Parquet文件格式的base file和Avro格式的log file存储。