更新时间:2022-09-30 GMT+08:00

自定义rowkey实现

操作场景

支持用户自定义的组合rowkey实现。用户可编写rowkey实现代码,导入时根据该代码逻辑进行组合rowkey导入。

配置方法

  1. 用户编写自定义rowkey的实现类,需要继承接口,该接口所在的Jar包路径为“客户端安装目/HBase/hbase/lib/hbase-it-bulk-load-*.jar”:

    [com.huawei.hadoop.hbase.tools.bulkload.RowkeyHandlerInterface],

    实现接口中方法:

    byte[] getRowkeyBytes(String[] colsValues, RegulationDomain regulation)

    其中:

    • 传入参数“colsValues”为原始数据中的一行数据集合,每个元素为一列。
    • 传入参数“regulation”为配置导入文件信息(一般情况下并不需要使用)。

  2. 将该实现类与其依赖包同时打包成Jar文件,保存到HBase客户端所在节点的任意位置并确保执行命令的用户具有读取和执行该Jar包的权限。
  3. 在执行导入命令时,增加两个参数配置项:

    -Dimport.rowkey.jar="第二步中Jar包的全路径"

    -Dimport.rowkey.class="用户实现类的全类名"