更新时间:2024-02-22 GMT+08:00
分享

目的端为HDFS

JSON样例

"to-config-values": {
        "configs": [
          {
            "inputs": [
              {
                "name": "toJobConfig.outputDirectory",
                "value": "/hdfsto"
              },
              {
                "name": "toJobConfig.outputFormat",
                "value": "BINARY_FILE"
              },
              {
                "name": "toJobConfig.writeToTempFile",
                "value": "false"
              },
              {
                "name": "toJobConfig.duplicateFileOpType",
                "value": "REPLACE"
              },
              {
                "name": "toJobConfig.compression",
                "value": "NONE"
              },
              {
                "name": "toJobConfig.appendMode",
                "value": "true"
              }
            ],
            "name": "toJobConfig"
          }
        ]
      }

参数说明

参数

是否必选

类型

说明

toJobConfig.outputDirectory

String

数据写入的路径,例如“/data_dir”

toJobConfig.outputFormat

枚举

写入数据时所用的文件格式(二进制除外),支持以下文件格式:
  • CSV_FILE:按照CSV格式写入数据。
  • BINARY_FILE:二进制格式,不解析文件内容直接传输,CDM会原样写入文件,不改变原始文件格式。

当选择“BINARY_FILE”时,源端也必须为文件系统。

toJobConfig.lineSeparator

String

行分割符号,当“toJobConfig.outputFormat”(文件格式)为“CSV_FILE”时此参数有效,默认值为:“\r\n

toJobConfig.fieldSeparator

String

列分割符号,当“toJobConfig.outputFormat”(文件格式)为“CSV_FILE”时此参数有效,默认值为:“,”

toJobConfig.writeToTempFile

Boolean

将二进制文件先写入到临时文件(临时文件以“.tmp”作为后缀),迁移成功后,再进行rename或move操作,在目的端恢复文件。

toJobConfig.duplicateFileOpType

枚举

重复文件处理方式,只有文件名和文件大小都相同才会判定为重复文件。重复文件支持以下处理方式:
  • REPLACE:替换重复文件。
  • SKIP:跳过重复文件。
  • ABANDON:发现重复文件停止任务。

toJobConfig.compression

枚举

写入文件后,选择对文件的压缩格式。支持以下压缩格式:
  • NONE:不压缩。
  • DEFLATE:压缩为DEFLATE格式。
  • GZIP:压缩为GZIP格式。
  • BZIP2:压缩为BZIP2格式。
  • LZ4:压缩为LZ4格式。
  • SNAPPY:压缩为SNAPPY格式。

toJobConfig.appendMode

Boolean

当加载路径已经存在文件,是否需要写入,默认值为“false”

toJobConfig.encryption

枚举

“toJobConfig.outputFormat”(文件格式)为“BINARY_FILE”(二进制)时才有该参数,选择是否对导入的数据进行加密,以及加密方式:
  • NONE:不加密,直接写入数据。
  • AES-256-GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES-256-GCM(NoPadding)。

toJobConfig.dek

String

数据加密密钥,“toJobConfig.encryption”(加密方式)选择“AES-256-GCM”时有该参数,密钥由长度64的十六进制数组成。

请您牢记这里配置的密钥,解密时的密钥与这里配置的必须一致。如果不一致系统不会报异常,只是解密出来的数据会错误。

toJobConfig.iv

String

初始化向量,“toJobConfig.encryption”(加密方式)选择“AES-256-GCM”时有该参数,初始化向量由长度32的十六进制数组成。

请您牢记这里配置的初始化向量,解密时的初始化向量与这里配置的必须一致。如果不一致系统不会报异常,只是解密出来的数据会错误。

toJobConfig.filePrefix

String

自定义文件名前缀,支持时间宏。例如:test_${dateformat(yyyyMMdd, -1, DAY)}

注意文件名格式要符合hdfs文件路径命名规范。

相关文档