更新时间:2025-11-27 GMT+08:00
分享

MRS HBase数据源

本数据集成服务全面支持华为云大数据MRS HBase产品,支持HBase 1.x/2.x版本,可满足不同用户在多种部署环境下的数据同步需求。

使用前准备及限制

  • 网络要求

    MRS HBase数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通

  • 权限要求
    • 读权限:如果需要从HBase读取数据,需要为数据集成服务的IAM用户或用户组授予HBase的只读权限,如MRS ReadOnlyAccess系统策略,或者根据具体需求创建自定义策略,授予如SELECT等读取相关操作的权限。
    • 写权限:如果需要向HBase写入数据,除了上述OBS权限外,还需要为数据集成服务的IAM用户或用户组授予HBase的写入权限,如MRS CommonOperations或MRS FullAccess系统策略,或者创建自定义策略,授予如INSERT INTO TABLE、CREATE TABLE等写入相关操作的权限。
  • 访问端口放通:不同MRS版本绑定端口可能不同,可以参考MRS集群服务常用端口列表
    表1 各服务端口说明

    服务

    端口类型

    端口号

    用途

    MRS Manager

    TCP

    28443

    下载集群配置。

    TCP

    20009

    CAS 认证。

    TCP

    20029

    Manager 内部通信。

    KDC

    TCP&UDP

    21730

    21731

    21732

    Kerberos 认证

    HDFS

    TCP

    8020

    HDFS NameNode服务端口。

    TCP

    9866

    HDFS dataNode服务端口。

    HBase

    TCP

    16000

    HBase Master RPC端口。

    TCP

    16020

    Hbase RegionServer RPC端口。

    ZooKeeper

    TCP

    2181

    Zookeeper服务端口,用于客户端与Zookeeper集群之间的通信。

支持的迁移场景

数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:

需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对MRS HBase的支持迁移场景概览:

支持迁移场景

单表读取

单表写入

分库分表读取

分库分表写入

整库读取

整库写入

是否支持

x

x

x

核心能力速览

  • 连接配置

    配置项

    支持情况

    说明

    认证方式

    SIMPLE

    KERBEROS

    支持通过SIMPLE/KERBEROS认证方式访问MRS集群。

    支持版本

    1.x

    2.x

    支持Hbase 1.x/2.x版本读写能力。

  • 读取能力

    配置项

    支持情况

    说明

    增量读取

    支持 【RowKey条件】或【起止时间】 模式,可实现增量读取。

    分片并发

    支持根据region水平分片,多线程并行抽取,显著提升吞吐效率。

    自定义字段

    可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需。

    脏数据处理

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。

  • 写入能力

    配置项

    支持情况

    说明

    导入前清空数据

    支持在数据导入前进行数据清空。

    脏数据处理

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。

    并发写入

    支持并发写入,提升写入效率。

创建数据集成离线作业

DataArts Studio数据开发中新建MRS HBase集成作业,详情请参见新建离线处理集成作业

创建数据源

DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接

创建数据集成离线作业

DataArts Studio数据开发中新建DataArts Fabric SQL集成作业,详情请参见新建离线处理集成作业

相关文档