配置HDFS源端参数
作业中源连接为HDFS连接时,即从MRS HDFS、FusionInsight HDFS、Apache HDFS导出数据时,源端作业参数如表1所示。
| 
       参数类型  | 
     
       参数名  | 
     
       说明  | 
     
       取值样例  | 
    
|---|---|---|---|
| 
       基本参数  | 
     
       源连接名称  | 
     
       由用户下拉选择即可。  | 
     
       hdfs_to_cdm  | 
    
| 
       源目录或文件  | 
     
       “列表文件”选择为“否”时,才有该参数。 待迁移数据的目录或单个文件路径。 待迁移数据的目录,将迁移目录下的所有文件(包括所有嵌套子目录及其子文件)。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       /user/cdm/  | 
    |
| 
       文件格式  | 
     
       
       传输数据时所用的文件格式,可选择以下文件格式:
        
  | 
     
       CSV格式  | 
    |
| 
       列表文件  | 
     
       当“文件格式”选择为“二进制格式”时,才有该参数。 
       打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),文件内容示例如下:
        /mrs/job-properties/application_1634891604621_0014/job.properties /mrs/job-properties/application_1634891604621_0029/job.properties  | 
     
       是  | 
    |
| 
       列表文件源连接  | 
     
       当“列表文件”选择为“是”时,才有该参数。可选择列表文件所在的OBS连接。  | 
     
       OBS_test_link  | 
    |
| 
       列表文件OBS桶  | 
     
       当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶名。  | 
     
       01  | 
    |
| 
       列表文件或目录  | 
     
       当“列表文件”选择为“是”时,才有该参数。该参数表示列表文件所在的OBS桶中的绝对路径或目录。  | 
     
       /0521/Lists.txt  | 
    |
| 
       高级属性  | 
     
       换行符  | 
     
       文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时,才有该参数。  | 
     
       \n  | 
    
| 
       字段分隔符  | 
     
       文件中的字段分隔符,使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时,才有该参数。  | 
     
       ,  | 
    |
| 
       首行为标题行  | 
     
       “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的前N行数据作为标题行,不写入目的端的表。  | 
     
       否  | 
    |
| 
       编码类型  | 
     
       文件编码类型,例如:“UTF-8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。  | 
     
       GBK  | 
    |
| 
       启动作业标识文件  | 
     
       选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。  | 
     
       ok.txt  | 
    |
| 
       过滤类型  | 
     
       满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。具体使用方法可参见文件增量迁移。  | 
     
       -  | 
    |
| 
       目录过滤器  | 
     
       “过滤类型”选择“通配符”、“正则表达式”时,用通配符过滤目录,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       *input  | 
    |
| 
       文件过滤器  | 
     
       “过滤类型”选择“通配符”、“正则表达式”时,用通配符过滤目录下的文件,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       *.csv  | 
    |
| 
       时间过滤  | 
     
       选择“是”时,可以根据文件的修改时间选择性地传输文件。  | 
     
       是  | 
    |
| 
       起始时间  | 
     
       “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间大于等于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示:只迁移最近90天内的文件。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       2019-07-01 00:00:00  | 
    |
| 
       终止时间  | 
     
       “过滤类型”选择“时间过滤器”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示:只迁移修改时间为当前时间以前的文件。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       2019-07-30 00:00:00  | 
    |
| 
       创建快照  | 
     
       如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不允许对单个文件创建快照),然后CDM迁移快照中的数据。 需要HDFS系统的管理员权限才可以创建快照,CDM作业完成后,快照会被删除。  | 
     
       否  | 
    |
| 
       加密方式  | 
     
       “文件格式”选择“二进制格式”时,该参数才显示。 
       如果源端数据是被加密过的,则CDM支持解密后再导出。这里选择是否对源端数据解密,以及选择解密算法:
        
      
 详细使用方法请参见迁移文件时加解密。  | 
     
       AES-256-GCM  | 
    |
| 
       数据加密密钥  | 
     
       “加密方式”选择“AES-256-GCM”时显示该参数,密钥由长度64位的十六进制数组成,且必须与加密时配置的“数据加密密钥”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。  | 
     
       DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B  | 
    |
| 
       初始化向量  | 
     
       “加密方式”选择“AES-256-GCM”时显示该参数,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“初始化向量”一致。如果不一致系统不会报异常,只是解密出来的数据会错误。  | 
     
       5C91687BA886EDCD12ACBC3FF19A3C3F  | 
    |
| 
       MD5文件名后缀  | 
     
       “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性。  | 
     
       .md5  |