文档首页/ MapReduce服务 MRS/ 组件操作指南（普通版）/ 使用Spark2x（MRS 3.x及之后版本）/ Spark SQL性能调优/ Datasource表优化

更新时间：2024-07-24 GMT+08:00

Datasource表优化

操作场景

将datasource表的分区消息存储到Metastore中，并在Metastore中对分区消息进行处理。

优化datasource表，支持对表中分区执行增加、删除和修改等语法，从而增加与Hive的兼容性。
支持在查询语句中，把分区裁剪并下压到Metastore上，从而过滤掉不匹配的分区。
示例如下：
```
select count(*) from table where partCol=1;    //partCol列为分区列
```
此时，在物理计划中执行TableScan操作时，只处理分区(partCol=1)对应的数据。

操作步骤

要启动Datasource表优化，在Spark客户端的“spark-defaults.conf”配置文件中进行设置。

表1 参数介绍
参数	描述	默认值
spark.sql.hive.manageFilesourcePartitions	是否启用Metastore分区管理（包括数据源表和转换的Hive表）。 true：启用Metastore分区管理，即数据源表存储分区在Hive中，并在查询语句中使用Metastore修剪分区。 false：不启用Metastore分区管理。	true
spark.sql.hive.metastorePartitionPruning	是否支持将predicate下压到Hive Metastore中。 true：支持，目前仅支持Hive表的predicate下压。 false：不支持	true
spark.sql.hive.filesourcePartitionFileCacheSize	启用内存中分区文件元数据的缓存大小。所有表共享一个可以使用指定的num字节进行文件元数据的缓存。只有当“spark.sql.hive.manageFilesourcePartitions”配置为“true”时，该配置项才会生效。	250 * 1024 * 1024
spark.sql.hive.convertMetastoreOrc	设置ORC表的处理方式： false：Spark SQL使用Hive SerDe处理ORC表。 true：Spark SQL使用Spark内置的机制处理ORC表。	true

父主题： Spark SQL性能调优

上一篇：聚合算法优化

下一篇：合并CBO优化

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试