Spark性能优化

概述

Spark是基于内存的分布式计算框架。在迭代计算的场景下，数据处理过程中的数据可以存储在内存中，提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储，使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力，包括小批量流式处理、离线批处理、SQL查询、数据挖掘等，用户可以在同一个应用中无缝结合使用这些能力。

Spark的特点如下：

通过分布式内存计算和DAG（无回路有向图）执行引擎提升数据处理能力，比MapReduce性能高10倍到100倍。
提供多种语言开发接口（Scala/Java/Python），并且提供几十种高度抽象算子，可以很方便构建分布式的数据处理应用。
结合SQL、Streaming、MLlib、GraphX等形成数据处理栈，提供一站式数据处理能力。
完美契合Hadoop生态环境，Spark应用可以运行在Standalone、Mesos或者YARN上，能够接入HDFS、HBase、Hive等多种数据源，支持MapReduce程序平滑转接。

集群服务部署规划

服务规模与业务容量参数配置对照表

Spark作为内存计算引擎，需要更多的内存和CPU。用户在规划规格时，应根据当前的业务容量和增长速度，规划合理的内存和CPU资源，特别需要关注以下几点：
当程序运行在yarn-client模式下时，需要关注在driver端汇聚的数据量大小，根据自己的业务场景，为driver设置合理的内存。
根据自己的业务目标，规划CPU资源和内存资源。规划时，需要结合当前的数据分布情况，业务复杂度，设置“executor-memory”，“executor-cores”，“Executor-num”，并在此基础上，规划需要的CPU核数和内存大小。
在规划内存时，要预留一定量的内存空间作为操作系统的buffer cache，一般预留20%。
从HDFS中读入数据时，要考虑block解压缩后的数据膨胀。
规划一定的磁盘作为缓存空间，包括缓存数据、日志、Shuffle数据。

调优原则

提高cpu使用率同时减少额外性能开销。

提高内存使用率。

优化业务逻辑，减少计算量和IO操作。

典型业务的调优

优化代码逻辑：在进行Spark参数调优之前，要进行相应的规划设计，优化代码逻辑。
Spark任务跑的比较慢，cpu利用率低：检测室executor线程不能全部吃满，此时应减少每个executor的core数量，增加executor个数，同事增加partition个数。
任务容易出现内存溢出：部分数据分片较大，单个task处理数据过大，或者executor中并行度不足，单个task内存不足导致。此时应减少executor数量，增大数据分片。
数据量少，但小文件数量多：减少数据分片，在reduce算子后执行coalesce算子，以减少task数量，减少cpu负载。
使用spark sql查找一个大表，表列数较多，但是查找的列较少：尽量使用rcfile或parquet格式，减少文件读取成本，同时选择合适的压缩格式，减少内存负载。

指标观测方法

性能衡量指标包括吞吐量、资源利用率、伸缩性。

吞吐量：在相同资源环境下，执行相同计算任务，查看任务的完成速度
资源利用率：执行计算任务，查看在不同负载情况下，cpu、内存、网络的使用率。
伸缩性：

− 横向扩容带来的性能提升曲线：增加资源，执行相同计算任务，查看性能提升比率。

− 增加系统负担带来的性能下降曲线：在相同资源环境下，增加计算负载，查看性能下降比率

父主题： 大数据性能优化

上一篇：HIVE优化

下一篇：Flink性能优化

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

Spark性能优化

相关文档

意见反馈

文档内容是否对您有帮助？