配置Spark支持Hudi Schema演进
在Spark中配置Hudi以支持Schema演进,可以让您在不重新创建整个数据表的情况下,动态地修改表的结构。
约束与限制
- Schema演进开启后不能关闭。
- 本章节仅适用于MRS 3.2.0-LTS及之前版本。
配置Hudi Schema演进
- 使用spark-beeline配置Hudi Schema演进:
需要登录Manager页面,选择“集群 > 服务 > Spark2x > 配置 > 全部配置”。在搜索栏中搜索参数“spark.sql.extensions”,修改JDBCServer的spark.sql.extensions参数值为:org.apache.spark.sql.hive.FISparkSessionExtension,org.apache.spark.sql.hudi.HoodieSparkSessionExtension,org.apache.spark.sql.hive.CarbonInternalExtensions
- 使用Spark SQL配置Hudi Schema演进,需要在执行SQL前执行:
set hoodie.schema.evolution.enable=true
- 使用API配置Hudi Schema演进,需要在DataFrame options里面指定:
hoodie.schema.evolution.enable -> true