文档首页 > > 产品介绍> MRS有哪些功能> Spark SQL

Spark SQL

分享
更新时间: 2019/04/22 GMT+08:00

Spark SQL是Apache Spark的重要组成部分,为熟悉传统数据库但又不理解Spark的技术人员提供快速上手的工具。用户可以通过界面直接输入SQL语句,即可完成对数据的分析处理和查询。

对比Apache社区的Spark SQL,提供的Spark SQL具备如下特性:
  • 兼容大部分Hive语法,使得Hive用户无缝切换。
  • 兼容标准SQL语法。
  • 支持数据倾斜优化:Spark SQL支持倾斜数据Join转换,对于不包含倾斜键的数据依然能够平均到不同的Task进行处理,对于包含倾斜键的数据,将数据较小的那部分进行广播,利用Map-Side Join来平均到不同的Task进行处理,从而充分利用CPU资源,提升整体的性能。
  • 支持小文件优化:Spark SQL针对小文件的场景采用coalesce算子,对Table中的小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,生成过多的hash分桶,提高性能。

Spark SQL的架构和详细原理介绍,请参见:https://spark.apache.org/docs/2.3.2/rdd-programming-guide.html

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区