配置HBase/CloudTable源端参数
作业中源连接为HBase连接或CloudTable连接时,即从MRS HBase、FusionInsight HBase、Apache HBase或者CloudTable导出数据时,源端作业参数如表1所示。
 
  - CloudTable或HBase作为源端时,CDM会读取表的首行数据作为字段列表样例,如果首行数据未包含该表的所有字段,用户需要自己手工添加字段。
 - 由于HBase的无Schema技术特点,CDM无法获知数据类型,如果数据内容是使用二进制格式存储的,CDM会无法解析。
 
- 从HBase/CloudTable导出数据时,由于HBase/CloudTable是无Schema的存储系统,CDM要求源端数值型字段是以字符串格式存储,而不能是二进制格式,例如数值100需存储格式是字符串“100”,不能是二进制“01100100”。
 
| 
       参数类型  | 
     
       参数名  | 
     
       说明  | 
     
       取值样例  | 
    
|---|---|---|---|
| 
       基本参数  | 
     
       表名  | 
     
       导出数据的HBase表名。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       TBL_2  | 
    
| 
       列族  | 
     
       可选参数,导出数据所属的列族。  | 
     
       CF1&CF2  | 
    |
| 
       高级属性  | 
     
       切分Rowkey  | 
     
       可选参数,选择是否拆分Rowkey,默认为“否”。  | 
     
       是  | 
    
| 
       Rowkey分隔符  | 
     
       可选参数,用于拆分Rowkey的分隔符,若不设置则不切分。  | 
     
       |  | 
    |
| 
       起始时间  | 
     
       可选参数,起始时间(包含该值),格式为“yyyy-MM-dd HH:mm:ss”,表示只抽取该时间及以后的数据。 该参数支持配置为时间宏变量,使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       2019-01-01 20:00:00  | 
    |
| 
       终止时间  | 
     
       可选参数,终止时间(不包含该值),格式为“yyyy-MM-dd HH:mm:ss”,表示只抽取该时间以前的数据。 该参数支持配置为时间宏变量,详细说明请参见使用时间宏变量完成增量同步。 
        说明: 
        如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。  | 
     
       2019-02-01 20:00:00  |