更新时间:2024-12-28 GMT+08:00

自定义参数说明

在创建数据湖探索 DLI校验任务时,支持的自定义参数及说明参见表1

表1 DLI校验任务支持的自定义参数说明

参数名称

默认值

描述

mgc.mc2dli.table.partition.enable

true

DLI表分区为空或者分区不存在时需要通过查询DLI的元数据去判断分区存不存在。

  • true:查询DLI表的分区,空分区校验状态为成功,分区不存在状态为失败。
  • false:不查询DLI表的分区,空分区或者分区不存在校验状态都为成功

spark.sql.files.maxRecordsPerFile

0

要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。

spark.sql.autoBroadcastJoinThreshold

209715200

配置执行连接时显示所有工作节点的表的最大字节大小。通过将此值设置为“-1”,可以禁用显示。

说明:

当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。

spark.sql.shuffle.partitions

200

为连接或聚合过滤数据时使用的默认分区数。

spark.sql.dynamicPartitionOverwrite.enabled

false

当前配置设置为“false”时,DLI在覆盖写之前,会删除所有符合条件的分区。例如,分区表中有一个“2021-01”的分区,当使用INSERT OVERWRITE语句向表中写入“2021-02”这个分区的数据时,会把“2021-01”的分区数据也覆盖掉。

当前配置设置为“true”时,DLI不会提前删除分区,而是在运行时覆盖那些有数据写入的分区。

spark.sql.files.maxPartitionBytes

134217728

读取文件时要打包到单个分区中的最大字节数。

spark.sql.badRecordsPath

-

Bad Records的路径。

spark.sql.legacy.correlated.scalar.query.enabled

false

  • 该参数设置为true:
    • 当子查询中数据不重复的情况下,执行关联子查询,不需要对子查询的结果去重。
    • 当子查询中数据重复的情况下,执行关联子查询,会提示异常,必须对子查询的结果做去重处理,比如max(),min()。
  • 该参数设置为false:

    不管子查询中数据重复与否,执行关联子查询时,都需要对子查询的结果去重,比如max(),min(),否则提示异常。