文档首页/ 数据湖探索 DLI/ 版本规划/ Spark 2.4.5版本说明
更新时间:2025-08-11 GMT+08:00
分享

Spark 2.4.5版本说明

数据湖探索(DLI)遵循开源Spark计算引擎的发布一致性。本文介绍Spark 2.4.5版本所做的变更说明。

更多Spark 2.4.5版本说明请参考Spark Release Notes

Spark 2.4.5版本发布时间

版本名称

发布时间

状态

EOM时间

EOS时间

DLI Spark 2.4.5

2021年12月

EOS

2023年12月31日

2024年12月31日

更多版本支持信息请参考DLI计算引擎版本生命周期

Spark 2.4.5 版本说明

表1列举了Spark 2.4.5版本主要的功能特性。

更多版本新特性请参考Release Notes - Spark 2.4.5

表1 Spark 2.4.5版本优势

特性

说明

支持配置小文件合并

使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。

参考如何合并小文件完成合并小文件。

支持修改非分区表或分区表的列注释

修改非分区表或分区表的列注释。

支持统计SQL作业的CPU消耗

支持在控制台查看“CPU累计使用量”。

支持容器集群Spark日志跳转查看

需要在容器查看日志。

支持动态加载UDF(公测)

无需重启队列UDF即可生效。

Spark UI支持火焰图

Spark UI支持绘制火焰图。

优化SQL作业NOT IN语句查询性能

NOT IN语句查询性能提升。

优化Multi-INSERT语句查询性能

Multi-INSERT语句查询性能提升。

相关文档