创建Bucket索引的MOR表

Bucket索引常用设置参数：

Spark：

hoodie.index.type=BUCKET
hoodie.bucket.index.num.buckets=5

Flink

index.type=BUCKET
hoodie.bucket.index.num.buckets=5

根据表的使用场景一般将表分为事实表和维度表：

事实表通常整表数据规模较大，以新增数据为主，更新数据占比小，且更新数据大多落在近一段时间范围内（年或月或天），下游读取该表进行ETL计算时通常会使用时间范围进行裁剪（例如最近一天、一月、一年），这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。
维度表数据量一般整表数据规模较小，以更新数据为主，新增较少，表数据量比较稳定，且读取时通常需要全量读取做join类的ETL计算，因此通常使用非分区表性能更好。
分区表的分区键不允许更新，否则会产生重复数据。

例外场景：超大维度表和超小事实表

特殊情况如存在持续大量新增数据的维度表（表数据量在200G以上或日增长量超过60M）或数据量非常小的事实表（表数据量小于10G且未来三至五年增长后也不会超过10G）需要针对具体场景来进行例外处理：

Hudi表的桶数设置，关系到表的性能，需要格外引起注意。

以下几点，是设置桶数的关键信息，需要建表前确认。

非分区表
1. 单表数据总条数 = select count(1) from tablename（入湖时需提供）；
2. 单条数据大小 = 平均 1KB（华为建议通过select * from tablename limit 100将查询结果粘贴在notepad++中得出100条数据的大小再除以100得到单条平均大小）
3. 单表数据量大小(G) = 单表数据总条数*单条数据大小/1024/1024
4. 非分区表桶数 = MAX（单表数据量大小(G)/2G*2，再向上取整，4）
分区表
1. 最近一个月最大数据量分区数据总条数 = 入湖前咨询产品线
2. 单条数据大小 = 平均 1KB（华为建议通过select * from tablename limit 100将查询结果粘贴在notepad++中得出100条数据的大小再除以100得到单条平均大小）
3. 单分区数据量大小(G) = 最近一个月最大数据量分区数据总条数*单条数据大小/1024/1024
4. 分区表桶数 = MAX（单分区数据量大小(G)/2G，再后向上取整，1）
1. 需要使用的是表的总数据大小，而不是压缩以后的文件大小
2. 桶的设置以偶数最佳，非分区表最小桶数请设置4个，分区表最小桶数请设置1个。