更新时间:2024-10-24 GMT+08:00
Iceberg
Iceberg原理介绍
Iceberg是一种开放的数据湖表格式,可以基于Iceberg快速地在HDFS或OBS上构建自己的数据湖存储服务。
- Iceberg当前为公测阶段,若需使用需联系技术支持申请白名单开通。
- 当前版本Iceberg仅支持Spark引擎,如需使用其他引擎构建数据湖服务,请使用Hudi。
图1 Iceberg基本架构
Iceberg特性
Iceberg具有如下特性:
- 构建于存储格式之上的数据组织方式
- 提供ACID能力,支持一些事务特性和并发能力
- 提供行级别的数据修改能力
- 支持Schema演进功能
- 支撑分区演进功能
- 支持隐式分区功能
- 支持历史版本回溯功能
Iceberg关键技术和优势
- Iceberg支持分支和标签功能,能更加灵活的管理快照生命周期。
- Iceberg支持丰富的Spark SQL能力。
父主题: 组件介绍