Spark创建带隐式分区的Hudi表

操作场景

在Spark中创建Hudi表时，如果需要按照日期、时间等维度对数据进行分区管理，但又不希望在表中额外新增分区列，可以通过配置隐式分区来实现。在Spark中创建带有隐式分区的Hudi表，可以通过配置选项来实现，需要在options_list中增加以下参数。建表语句格式具体请参考CREATE TABLE。

hoodie.hidden.partitioning.max.rules = [hidden_partition_max_rules_num]
hoodie.hidden.partitioning.rule = [hidden_partition_rules]
hoodie.hidden.partitioning.enabled = [hidden_partition_enable]

表1 参数解释
参数	描述	是否必填
hoodie.hidden.partitioning.max.rules	用于控制隐式分区的最大规则数量，String类型。它限制了可以应用于分区路径生成的规则数量，从而影响分区的灵活性和性能。默认为5，分区规则越多，性能越差，如果分区规则超过5个，需要先调整此参数。	否
hidden_partition_rules	用于定义隐式分区的规则，String类型。这些规则允许您在不新增列的情况下，对表中存在的原始列进行转换后生成分区列值。	是
hidden_partition_enable	用于启用或禁用隐式分区功能，Boolean类型。 true：启用隐式分区 false：则禁用隐式分区	是

示例

create table test ( id int, name string, price double, size int, ts timestamp )
using hudi tblproperties
(primaryKey = 'id',
preCombineField = 'ts',
hoodie.hidden.partitioning.rule = 'date(ts, yyyy), date(ts, MM), bucket(id, 5)',
hoodie.hidden.partitioning.enabled = 'true'
);

父主题： 隐式分区Hidden Partition

上一篇：Hudi隐式分区简介

下一篇：Flink创建带隐式分区的Hudi表