配置Hudi分区并发控制

本章节内容仅适用于MRS 3.3.0-LTS及之后版本。

分区并发写每个任务基于对当前存在inflight状态的commit中存储的修改分区信息来判断是否存在写冲突，从而实现并发写入。

并发过程中的锁控制基于ZK锁实现，无需用户配置额外参数。

注意事项

分区并发写控制基于单表并发写控制的基础上实现，因此使用约束条件与单表并控制写基本相同。

当前分区并发只支持Spark方式写入，Flink不支持该特性。

为避免过大并发量占用ZooKeeper过多资源，对Hudi在ZooKeeper上增加了Quota配额限制，可以通过服务端修改Spark组件中参数zk.quota.number来调整Hudi的Quota配额，默认为500000，最小为5，且不可通过此参数来控制并行任务数，仅用来控制对ZooKeeper的访问压力。

使用分区并发机制

通过设置参数：hoodie.support.partition.lock=true来启动分区并发写。

示例：

spark datasource方式开启分区并发写：

upsert_data.write.format("hudi").
option("hoodie.datasource.write.table.type", "COPY_ON_WRITE").
option("hoodie.datasource.write.precombine.field", "col2").
option("hoodie.datasource.write.recordkey.field", "primary_key").
option("hoodie.datasource.write.partitionpath.field", "col0").
option("hoodie.upsert.shuffle.parallelism", 4).
option("hoodie.datasource.write.hive_style_partitioning", "true").
option("hoodie.support.partition.lock", "true").
option("hoodie.table.name", "tb_test_cow").
mode("Append").save(s"/tmp/huditest/tb_test_cow")

spark-sql开启分区并发写：

set hoodie.support.partition.lock=true;
insert into hudi_table1 select 1,1,1;

父主题： 数据管理维护

上一篇：配置Hudi单表并发控制

下一篇：配置Hudi历史数据清理

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

配置Hudi分区并发控制

注意事项

使用分区并发机制

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线