更新时间:2024-10-24 GMT+08:00
分享

Iceberg

Iceberg原理介绍

Iceberg是一种开放的数据湖表格式,可以基于Iceberg快速地在HDFS或OBS上构建自己的数据湖存储服务。

  • Iceberg当前为公测阶段,若需使用需联系技术支持申请白名单开通。
  • 当前版本Iceberg仅支持Spark引擎,如需使用其他引擎构建数据湖服务,请使用Hudi。
图1 Iceberg基本架构

Iceberg特性

Iceberg具有如下特性:

  • 构建于存储格式之上的数据组织方式
  • 提供ACID能力,支持一些事务特性和并发能力
  • 提供行级别的数据修改能力
  • 支持Schema演进功能
  • 支撑分区演进功能
  • 支持隐式分区功能
  • 支持历史版本回溯功能

Iceberg关键技术和优势

  • Iceberg支持分支和标签功能,能更加灵活的管理快照生命周期。
  • Iceberg支持丰富的Spark SQL能力。

相关文档