更新时间:2025-12-26 GMT+08:00
分享

配置Spark支持Hudi Schema演进

在Spark中配置Hudi以支持Schema演进,可以让您在不重新创建整个数据表的情况下,动态地修改表的结构。

约束与限制

  • Schema演进开启后不能关闭。
  • 本章节仅适用于MRS 3.2.0-LTS及之前版本。

配置Hudi Schema演进

  • 使用spark-beeline配置Hudi Schema演进:

    需要登录Manager页面,选择“集群 > 服务 > Spark2x > 配置 > 全部配置”。在搜索栏中搜索参数“spark.sql.extensions”,修改JDBCServer的spark.sql.extensions参数值为:org.apache.spark.sql.hive.FISparkSessionExtension,org.apache.spark.sql.hudi.HoodieSparkSessionExtension,org.apache.spark.sql.hive.CarbonInternalExtensions

  • 使用Spark SQL配置Hudi Schema演进,需要在执行SQL前执行:
    set hoodie.schema.evolution.enable=true
  • 使用API配置Hudi Schema演进,需要在DataFrame options里面指定:
    hoodie.schema.evolution.enable -> true

相关文档