更新时间:2024-07-16 GMT+08:00
分享

Spark性能优化

概述

Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力,包括小批量流式处理、离线批处理、SQL查询、数据挖掘等,用户可以在同一个应用中无缝结合使用这些能力。

Spark的特点如下:

  • 通过分布式内存计算和DAG(无回路有向图)执行引擎提升数据处理能力,比MapReduce性能高10倍到100倍。
  • 提供多种语言开发接口(Scala/Java/Python),并且提供几十种高度抽象算子,可以很方便构建分布式的数据处理应用。
  • 结合SQL、Streaming、MLlib、GraphX等形成数据处理栈,提供一站式数据处理能力。
  • 完美契合Hadoop生态环境,Spark应用可以运行在Standalone、Mesos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。

集群服务部署规划

服务规模与业务容量参数配置对照表

  • Spark作为内存计算引擎,需要更多的内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,规划合理的内存和CPU资源,特别需要关注以下几点:
  • 当程序运行在yarn-client模式下时,需要关注在driver端汇聚的数据量大小,根据自己的业务场景,为driver设置合理的内存。
  • 根据自己的业务目标,规划CPU资源和内存资源。规划时,需要结合当前的数据分布情况,业务复杂度,设置“executor-memory”,“executor-cores”,“Executor-num”,并在此基础上,规划需要的CPU核数和内存大小。
  • 在规划内存时,要预留一定量的内存空间作为操作系统的buffer cache,一般预留20%。
  • 从HDFS中读入数据时,要考虑block解压缩后的数据膨胀。
  • 规划一定的磁盘作为缓存空间,包括缓存数据、日志、Shuffle数据。

调优原则

  • 提高cpu使用率同时减少额外性能开销。
  • 提高内存使用率。
  • 优化业务逻辑,减少计算量和IO操作。

典型业务的调优

  • 优化代码逻辑:在进行Spark参数调优之前,要进行相应的规划设计,优化代码逻辑。
  • Spark任务跑的比较慢,cpu利用率低:检测室executor线程不能全部吃满,此时应减少每个executor的core数量,增加executor个数,同事增加partition个数。
  • 任务容易出现内存溢出:部分数据分片较大,单个task处理数据过大,或者executor中并行度不足,单个task内存不足导致。此时应减少executor数量,增大数据分片。
  • 数据量少,但小文件数量多:减少数据分片,在reduce算子后执行coalesce算子,以减少task数量,减少cpu负载。
  • 使用spark sql查找一个大表,表列数较多,但是查找的列较少:尽量使用rcfile或parquet格式,减少文件读取成本,同时选择合适的压缩格式,减少内存负载。

指标观测方法

性能衡量指标包括吞吐量、资源利用率、伸缩性。

  • 吞吐量:在相同资源环境下,执行相同计算任务,查看任务的完成速度
  • 资源利用率:执行计算任务,查看在不同负载情况下,cpu、内存、网络的使用率。
  • 伸缩性:

− 横向扩容带来的性能提升曲线:增加资源,执行相同计算任务,查看性能提升比率。

− 增加系统负担带来的性能下降曲线:在相同资源环境下,增加计算负载,查看性能下降比率

相关文档