更新时间:2024-04-23 GMT+08:00

Spark 2.4.5版本说明

数据湖探索(DLI)遵循开源Spark计算引擎的发布一致性。本文介绍Spark 2.4.5版本所做的变更说明。

更多Spark 2.4.5版本说明请参考Spark Release Notes

Spark 2.4.5版本发布时间

版本名称

发布时间

状态

EOM时间

EOS时间

DLI Spark 2.4.5

2021年12月

已发布

2023年12月31日

2024年12月31日

更多版本支持信息请参考DLI计算引擎版本生命周期

Spark 2.4.5 版本说明

表1列举了Spark 2.4.5 版本主要的功能特性。

更多版本新特性请参考Release Notes - Spark 3.1.1

表1 Spark 2.4.5版本优势

特性

说明

支持配置小文件合并

使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。

参考如何合并小文件完成合并小文件。

支持修改非分区表或分区表的列注释

修改非分区表或分区表的列注释。

支持统计SQL作业的CPU消耗

支持在控制台查看“CPU累计使用量”。

支持容器集群Spark日志跳转查看

需要在容器查看日志。

支持动态加载UDF(公测)

无需重启队列UDF即可生效。

Spark UI支持火焰图

Spark UI支持绘制火焰图。

优化SQL作业NOT IN语句查询性能

NOT IN语句查询性能提升。

优化Multi-INSERT语句查询性能

Multi-INSERT语句查询性能提升。