更新时间:2024-12-25 GMT+08:00
分享

Hudi存储结构

Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。

在DLI环境,Hudi表的数据文件存储在OBS上,因此可以通过查看OBS文件检查。

如下,展示了Hudi 多级分区COW表存储结构的示意。

hudi_table
├── .hoodie  // 元数据文件夹
│   ├── .aux
│   ├── .cleanData
│   ├── .schema
│   ├── .temp
│   ├── hoodie.properties  // Hudi表元数据存储文件
│   ├── 20231030232758468.commit.requested  // COW表写入记录元数据(代表计划)
│   ├── 20231030232758468.inflight  // COW表写入记录元数据(代表执行中)
│   ├── 20231030232758468.commit  // COW表写入记录元数据(代表完成)
│   └── ...
├── 2023  // 多级分区目录
│   ├── 10
│   │   ├── 30
│   │   │   ├── .hoodie_partition_metadata
│   │   │   ├── 425388c7-1a84-427e-a7b5-18e6745389b5_1-4-0_20231030232758468.parquet
│   │   │   ├── 425388c7-1a84-427e-a7b5-18e6745389b5_1-4-0_20231030524543412.parquet
│   │   │   ├── ...
│   │   │   └── 425388c7-1a84-427e-a7b5-18e6745389b5_1-4-0_20231030744231276.parquet
│   │   └── ...
└── ...

相关文档