配置Iceberg Catalog

创建Catalog

Catalog用于加载、创建和管理Iceberg表，具体通过配置spark.sql.catalog的相关属性来实现。

创建名为hive_prod的Iceberg Catalog，用于从Hive的元数据存储中加载表：
SET spark.sql.catalog.hive_prod = org.apache.iceberg.spark.SparkCatalog;

SET spark.sql.catalog.hive_prod.type = hive;

SET spark.sql.catalog.hive_prod.uri = thrift://MetaStore IP地址:port;

其中，“spark.sql.catalog.hive_prod.uri”参数值可登录HiveServer实例所在节点，执行以下命令获取：

cat ${BIGDATA_HOME}/FusionInsight_HD_*/1_*_HiveServer/etc/hive-site.xml | grep -A 1 "hive.metastore.uris"

如果“hive.metastore.uris”有多个值，取任意一个即可。

Iceberg同时支持基于HDFS的Catalog，只需将“type”设置为“hadoop”：
SET spark.sql.catalog.hadoop_prod = org.apache.iceberg.spark.SparkCatalog;

SET spark.sql.catalog.hadoop_prod.type = hadoop;

SET spark.sql.catalog.hadoop_prod.warehouse = hdfs://NameNode IP地址:8020/warehouse/path;

其中，NameNode IP地址可登录Manager界面，选择“集群 > 服务 > HDFS > 实例”，在实例页面查看任一NameNode的IP地址获取。

配置Catalog

通过属性“spark.sql.catalog.catalog-name”添加具体的实现类来配置Catalog。支持以下两种类：

org.apache.iceberg.spark.SparkCatalog
org.apache.iceberg.spark.SparkCatalog由Iceberg全权管理，主要支持Iceberg表，只使用Hive Metastore或 Hadoop的目录结构来存储这些元数据。
```
SET spark.sql.catalog.spark_catalog = org.apache.iceberg.spark.SparkCatalog;
```
org.apache.iceberg.spark.SparkSessionCatalog
org.apache.iceberg.spark.SparkSessionCatalog由Spark的内置Catalog管理，支持多种表格式。识别到Iceberg表后委托给底层的Iceberg API；对于非Iceberg表（如Parquet、Hive），仍由Spark原生的元数据管理机制或Hive Metastore管理。
```
SET spark.sql.catalog.spark_catalog = org.apache.iceberg.spark.SparkSessionCatalog;
```

常用的Catalog属性请参见下表：

表1 常用的Catalog属性
参数	说明
spark.sql.catalog.catalog-name.type	底层使用的Iceberg Catalog实现方式，对应Hive Catalog、Hadoop Catalog等。如果使用自定义目录，该参数值可为空。取值范围为： hive：基于Hive Metastore的Catalog，用于集成Hive的元数据管理系统。设置为该类型，Spark可以直接访问Hive Metastore中存储的数据库、表元数据（如Schema、分区信息等），支持与Hive表的互通（包括读写Hive管理表、外部表）。 hadoop：基于Hadoop文件系统的Catalog，元数据直接存储在HDFS或本地文件系统中（以文件形式持久化）。无需依赖外部元数据服务（如Hive Metastore），元数据以JSON等格式存储在指定的文件路径下，轻量且易于部署。 rest：基于REST API的Catalog，通过HTTP/HTTPS协议与远程元数据服务交互。 jdbc：基于JDBC连接的Catalog，通过JDBC协议连接关系型数据库，将数据库中的表作为Spark的元数据来源。 nessie：对接Project Nessie的Catalog，Nessie是一个开源的版本化元数据服务，支持元数据的分支、合并等版本控制功能。可以实现管理Spark表元数据的版本，支持跨分支查询、回滚等操作，适用于数据湖的版本化管理场景。
spark.sql.catalog.catalog-name.catalog-impl	自定义的Iceberg Catalog实现类。如果“spark.sql.catalog.catalog-name.type”为空，必须设置该参数值。
spark.sql.catalog.catalog-name.io-impl	自定义的文件IO实现类。
spark.sql.catalog.catalog-name.metrics-reporter-impl	自定义的指标报告器实现类。
spark.sql.catalog.catalog-name.default-namespace	目录的默认命名空间，默认值为“default”。
spark.sql.catalog.catalog-name.uri	对于Hive类型的目录，值为Hive元数据存储的URL；对于REST类型的目录，值为REST服务的URL。参数值格式为“thrift://host:port”。
spark.sql.catalog.catalog-name.warehouse	仓库目录的基础路径，为HDFS或OBS路径。
spark.sql.catalog.catalog-name.cache-enabled	是否启用目录缓存，默认值为“true”。
spark.sql.catalog.catalog-name.cache.expiration-interval-ms	缓存的目录条目过期时间，仅当“cache-enabled”为“true”时有效。默认值为30000（30秒），其中： -1：表示永不过期。 0：表示完全禁用缓存（与cache-enabled参数配置无关）。
spark.sql.catalog.catalog-name.table-default.propertyKey	表属性propertyKey的默认值，使用该目录创建表时，如果没特别指定，就使用默认值。
spark.sql.catalog.catalog-name.table-override.propertyKey	表属性propertyKey的强制值，用户不能修改。
spark.sql.catalog.catalog-name.use-nullable-query-schema	用CTAS和RTAS创建表时，是否保留字段的可空性，适用于Spark 3.5及之后版本。 true：默认值，所有字段都标为可空。 false：保留原有可空性。

使用Catalog

Catalog名用于在SQL查询中标识目标表。在创建Catalog的示例中，hive_prod与hadoop_prod可作为数据库名和表名的前缀，通过前缀可明确从对应的目录中加载目标数据库和表。

//执行CREATE TABLE建表操作后可执行以下命令：
SELECT * FROM prod.db.sample;

Spark3会自动记录当前使用的Catalog与命名空间，若目标表处于当前Catalog及命名空间下，可省略Catalog名与命名空间前缀。

切换数据库：

USE prod.db;

查询数据：

SELECT * FROM sample;

加载自定义Catalog

Spark支持通过指定catalog-impl属性来加载自定义的Iceberg Catalog实现。配置示例如下：

SET spark.sql.catalog.custom_prod = org.apache.iceberg.spark.SparkCatalog;

SET `spark.sql.catalog.custom_prod.catalog-impl` = com.my.custom.CatalogImpl;

SET `spark.sql.catalog.custom_prod.my-additional-catalog-config` = my-value;

父主题： 基于Spark 3使用Iceberg

上一篇：基于Spark 3使用Iceberg

下一篇：Iceberg DDL语法说明

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问