文档首页/ MapReduce服务 MRS/ 用户指南（吉隆坡区域）/ MRS集群组件操作指导/ 使用Spark2x/ Spark2x性能调优/ SQL和DataFrame调优/ INSERT...SELECT操作调优

更新时间：2023-03-17 GMT+08:00

查看PDF

INSERT...SELECT操作调优

操作场景

在以下几种情况下，执行INSERT...SELECT操作可以进行一定的调优操作。

查询的数据是大量的小文件。
查询的数据是较多的大文件。
在Beeline/JDBCServer模式下使用非Spark用户操作。

操作步骤

可对INSERT...SELECT操作做如下的调优操作。

如果建的是Hive表，将存储类型设为Parquet，从而减少执行INSERT...SELECT语句的时间。
建议使用spark-sql或者在Beeline/JDBCServer模式下使用spark用户来执行INSERT...SELECT操作，避免执行更改文件owner的操作，从而减少执行INSERT...SELECT语句的时间。

在Beeline/JDBCServer模式下，executor的用户跟driver是一致的，driver是JDBCServer服务的一部分，是由spark用户启动的，因此其用户也是spark用户，且当前无法实现在运行时将Beeline端的用户透传到executor，因此使用非spark用户时需要对文件进行更改owner为Beeline端的用户，即实际用户。
如果查询的数据是大量的小文件将会产生大量map操作，从而导致输出存在大量的小文件，在执行重命名文件操作时将会耗费较多时间，此时可以通过设置“spark.sql.files.maxPartitionBytes”与“spark.files.openCostInBytes”来设置一个partiton读取的最大字节，在一个partition中合并多个小文件来减少输出文件数及执行重命名文件操作的时间，从而减少执行INSERT...SELECT语句的时间。

上述优化操作并不能解决全部的性能问题，对于以下场景仍然需要较多时间：

对于动态分区表，如果其分区数非常多，那么也需要执行较长的时间。

父主题： SQL和DataFrame调优

上一篇：优化小文件场景下的Spark SQL性能

下一篇：多并发JDBC客户端连接JDBCServer

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消