更新时间:2024-11-29 GMT+08:00
Spark开源新特性
概述
Spark3.x版本相对于Spark 1.5版本新增了一些开源特性。具体特性或相关概念如下:
- DataSet,详见SparkSQL和DataSet原理。
- Spark SQL Native DDL/DML,详见SparkSQL和DataSet原理。
- SparkSession,详见SparkSession原理。
- Structured Streaming,详见Structured Streaming原理。
- 小文件优化。
- 聚合算法优化。
- Datasource表优化。
- 合并CBO优化。
父主题: Spark