文档首页/ MapReduce服务 MRS/ 组件操作指南（安卡拉区域）/ 使用Hudi/ 基本操作/ 数据管理维护/ Compaction

更新时间：2024-11-29 GMT+08:00

查看PDF

Compaction

Compaction简介

Compaction用于合并mor表Base和Log文件。

对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。

使用Compaction

Compaction包含两个步骤：

生成Compaction调度计划：Hudi扫描分区并选出待进行compaction的FileSlice，然后CompactionPlan写入Hudi的Timeline。
执行Compaction计划：读取CompactionPlan并对FileSlice执行Compaction操作。

使用Compaction的方式分为同步和异步两种，由参数hoodie.compact.inline控制，默认为true：

同步方式，自动生成compaction调度计划并执行compaction：
1. 关闭同步compaction
  datasource写入时可以通过 .option("hoodie.compact.inline", "false") 来关闭自动compaction。
  
  spark-sql写入时可以通过set hoodie.compact.inline=false;来关闭自动compaction。
2. 仅同步生成compaction调度而不执行compaction
  - ·datasource写入时可以通过以下option参数来实现：
    option("hoodie.compact.inline", "true").
    
    option("hoodie.schedule.compact.only.inline", "true").
    
    option("hoodie.run.compact.only.inline", "false").
  - ·spark-sql写入时可以通过set 以下参数来实现：
    set hoodie.compact.inline=true;
    
    set hoodie.schedule.compact.only.inline=true;
    
    set hoodie.run.compact.only.inline=false;
异步方式由spark-sql来实现。
如果需要在异步compaction时只执行已经产生的compaction调度计划而不创建新的调度计划，则需要通过set命令设置以下参数：

set hoodie.compact.inline=true;

set hoodie.schedule.compact.only.inline=false;

set hoodie.run.compact.only.inline=true;

更多compaction参数请参考compaction&cleaning配置。

为了保证入湖的最高效率，推荐使用同步产生compaction调度计划，异步执行compaction调度计划的方式。

父主题： 数据管理维护

上一篇：Cleaning

下一篇：Savepoint

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消