文档首页/ MapReduce服务 MRS/ 开发指南（普通版_2.x及之前）/ Spark开发指南/ Spark应用开发常见问题/ Spark应用调优/ SQL和DataFrame调优/ INSERT...SELECT操作调优

更新时间：2022-07-19 GMT+08:00

INSERT...SELECT操作调优

操作场景

在以下几种情况下，执行INSERT...SELECT操作可以进行一定的调优操作。

查询的数据是大量的小文件。
查询的数据是较多的大文件。
在beeline/thriftserver模式下使用非spark用户操作。

操作步骤

可对INSERT...SELECT操作做如下的调优操作。

如果建的是Hive表，将存储类型设为Parquet，从而减少执行INSERT...SELECT语句的时间。
建议使用spark-sql或者在beeline/thriftserver模式下使用spark用户来执行INSERT...SELECT操作，避免执行更改文件owner的操作，从而减少执行INSERT...SELECT语句的时间。

在beeline/thriftserver模式下，executor的用户跟driver是一致的，driver是thriftserver服务的一部分，是由spark用户启动的，因此其用户也是spark用户，且当前无法实现在运行时将beeline端的用户透传到executor，因此使用非spark用户时需要对文件进行更改owner为beeline端的用户，即实际用户。

父主题： SQL和DataFrame调优

上一篇：Spark SQL join优化

下一篇：Spark Streaming调优

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试