更新时间:2024-11-08 GMT+08:00

如何合并小文件

使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。

  1. 设置配置项。

    spark.sql.shuffle.partitions = 分区数量(即此场景下最终生成的文件数量)

  2. 执行SQL。
    INSERT OVERWRITE TABLE tablename
    select  * FROM  tablename distribute by rand()