文档首页 > > 用户指南> 作业管理> 配置作业源端参数> 配置HDFS源端参数

配置HDFS源端参数

分享
更新时间:2020/05/27 GMT+08:00

作业中源连接为配置HDFS连接时,即从MRS HDFS、FusionInsight HDFS、Apache HDFS导出数据时,源端作业参数如表1所示。

表1 HDFS作为源端时的作业参数

参数类型

参数名

说明

取值样例

基本参数

源目录或文件

待迁移数据的目录或单个文件路径。

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

/user/cdm/

文件格式

传输数据时所用的文件格式,可选择以下文件格式:
  • CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。
  • 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。
  • Parquet格式:以Parquet格式解析源文件,用于HDFS数据导到表的场景。

CSV格式

列表文件

选择“是”,将待上传的文本文件中所有URL对应的文件拉取到OBS,文本文件记录的是HDFS上的文件路径。

列表文件源连接

文本文件存储在OBS桶中,这里需要选择已建立的OBS连接。

obs_link

OBS桶

存储文本文件的OBS桶名称。

obs-cdm-hwstaff

文件夹

在OBS中存储文本文件文件的自定义目录,多级目录可用“/”进行分隔。

test1

高级属性

换行符

文件中的换行符,默认自动识别“\n”“\r”“\r\n”。当“文件格式”选择为“CSV格式”时,才有该参数。

\n

字段分隔符

文件中的字段分隔符,使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时,才有该参数。

,

首行为标题行

“文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的第一行数据作为标题行,不写入目的端的表。

文件分割方式

指定任务分片方式,选择按文件或文件大小进行分割。HDFS上的文件,如果在HDFS上已经分片,则HDFS每个分片视为一个文件。
  • FILE:按文件数量进行分片。例如有10个文件,并在任务参数中指定“抽取并发数”“5”,则每个分片2个文件。
  • SIZE:按文件大小分割。注意这里不会将文件做切分来实现均衡。例如:有10个文件,9个10M,1个200M,在并发任务数中指定“抽取并发数”“2”,则会分两个分片,一个处理9个10M的文件,一个处理1个200M的文件。

FILE

源文件处理方式

作业执行成功后对源端文件的处理方式:
  • 重命名:作业执行成功后将源文件重命名,添加用户名和时间戳的后缀。
  • 删除:作业执行成功后将源文件删除。

重命名

启动作业标识文件

选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。

ok.txt

通配符

选择“是”时,输入通配符作为过滤文件,满足过滤条件的路径或文件会被传输,具体使用方法可参见文件/路径过滤器

路径过滤器

“过滤类型”选择“通配符”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。

*input

文件过滤器

“过滤类型”选择“通配符”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。

*.csv

时间过滤

选择“是”时,可以根据文件的修改时间,选择性的传输文件。

起始时间

“过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”

该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示:只迁移最近90天内的文件。

2019-07-01 00:00:00

终止时间

“过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”

该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示:只迁移修改时间为当前时间以前的文件。

2019-07-30 00:00:00

创建快照

如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不允许对单个文件创建快照),然后CDM迁移快照中的数据。

需要HDFS系统的管理员权限才可以创建快照,CDM作业完成后,快照会被删除。

加密方式

“文件格式”选择“二进制格式”时,该参数才显示。

如果源端数据是被加密过的,则CDM支持解密后再导出。这里选择是否对源端数据解密,以及选择解密算法:
  • 无:不解密,直接导出。
  • AES-256-GCM:使用长度为256byte的AES对称加密算法,目前加密算法只支持AES-256-GCM(NoPadding)。该参数在目的端为加密,在源端为解密。

详细使用方法请参见迁移文件时加解密

AES-256-GCM

数据加密密钥

“加密方式”选择“AES-256-GCM”时显示该参数,密钥由长度64的十六进制数组成,且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。

DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B

初始化向量

“加密方式”选择“AES-256-GCM”时显示该参数,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。

5C91687BA886EDCD12ACBC3FF19A3C3F

HDFS文件编码只能为“UTF-8”,故HDFS不支持设置文件编码类型。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问