更新时间:2024-07-29 GMT+08:00
分享

配置HBase/CloudTable目的端参数

作业中目的连接为HBase连接CloudTable连接时,即导入数据到以下数据源时,目的端作业参数如表1所示。

表1 HBase/CloudTable作为目的端时的作业参数

参数名

说明

取值样例

表名

写入数据的HBase表名。如果是创建新HBase表,支持从源端复制字段名。单击输入框后面的按钮可进入表的选择界面。

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

说明:

如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。

TBL_2

导入前清空数据

选择目的端表中数据的处理方式:
  • 是:任务启动前会清除目标表中数据。
  • 否:导入前不清空目标表中的数据,如果选“否”且表中有数据,则数据会追加到已有的表中。

自动创表

只有当源端为关系数据库时,才有该参数。表示写入表数据时,用户选择的操作:
  • 不自动创建:不自动建表。
  • 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。
    说明:

    Hbase自动建表包含列族与协处理器Coprocessor信息。其他属性按默认值设置,不跟随源端。

不自动创建

Row key拼接分隔符

可选参数,用于多列合并作为rowkey,默认为空格。

,

Rowkey冗余

可选参数,是否将选做Rowkey的数据同时写入HBase的列,默认值“否”

压缩算法

可选参数,创建新HBase表时采用的压缩算法,默认为值“NONE”
  • NONE:不压缩。
  • SNAPPY:压缩为Snappy格式。
  • GZ:压缩为GZ格式。

NONE

WAL开关

选择是否开启HBase的预写日志机制(WAL,Write Ahead Log)。

  • 是:开启后如果出现HBase服务器宕机,则可以从WAL中回放执行之前没有完成的操作。
  • 否:关闭时能提升写入性能,但如果HBase服务器宕机可能会造成数据丢失。

匹配数据类型

  • 是:源端数据库中的Short、Int、Long、Float、Double、Decimal类型列的数据,会转换为Byte[]数组(二进制)写入HBase,其他类型的按字符串写入。如果这几种类型中,有合并做rowkey的,则依然当字符串写入。

    该功能作用是:降低存储占用空间,存储更高效;特定场景下rowkey分布更均匀。

  • 否:源端数据库中所有类型的数据,都会按照字符串写入HBase。

相关文档