更新时间:2025-12-26 GMT+08:00
分享

Hudi性能调优

性能调优方式

当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似。

MOR表的性能调优

由于其本质上是写增量文件,调优可以直接根据Hudi的数据大小(dataSize)进行调整。

  • 单节点运行:如果dataSize只有几GB,建议在单节点上运行Spark,或者在Yarn模式下只分配一个container。
  • 并行度设置:建议并行度p设置为dataSize / 128M。例如,如果dataSize是10GB,那么p应该设置为10 * 1024 / 128 =80。
  • 核心数设置:程序分配的核心数应与并行度p保持一致。
  • 内存设置:建议内存大小与core数的比例大于1.5:1,即每个core配1.5 GB内存。
  • 堆外内存设置:建议堆外内存大小与core数的比例大于0.5:1。

COW表的性能调优

COW表的原理是重写原始数据,因此这种表的调优,要兼顾dataSize和最后重写的文件数量。总体来说core数量越大越好(和最后重写多少个文件数直接相关),并行度p和内存大小和mor设置类似。

相关文档