MRS HBase数据源
本数据集成服务全面支持华为云大数据MRS HBase产品,支持HBase 1.x/2.x版本,可满足不同用户在多种部署环境下的数据同步需求。
使用前准备及限制
- 网络要求
MRS HBase数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通。
- 权限要求
- 读权限:如果需要从HBase读取数据,需要为数据集成服务的IAM用户或用户组授予HBase的只读权限,如MRS ReadOnlyAccess系统策略,或者根据具体需求创建自定义策略,授予如SELECT等读取相关操作的权限。
- 写权限:如果需要向HBase写入数据,除了上述OBS权限外,还需要为数据集成服务的IAM用户或用户组授予HBase的写入权限,如MRS CommonOperations或MRS FullAccess系统策略,或者创建自定义策略,授予如INSERT INTO TABLE、CREATE TABLE等写入相关操作的权限。
- 访问端口放通:不同MRS版本绑定端口可能不同,可以参考MRS集群服务常用端口列表。
表1 各服务端口说明 服务
端口类型
端口号
用途
MRS Manager
TCP
28443
下载集群配置。
TCP
20009
CAS 认证。
TCP
20029
Manager 内部通信。
KDC
TCP&UDP
21730
21731
21732
Kerberos 认证
HDFS
TCP
8020
HDFS NameNode服务端口。
TCP
9866
HDFS dataNode服务端口。
HBase
TCP
16000
HBase Master RPC端口。
TCP
16020
Hbase RegionServer RPC端口。
ZooKeeper
TCP
2181
Zookeeper服务端口,用于客户端与Zookeeper集群之间的通信。
支持的迁移场景
数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:
- 单表同步
适用于数据入湖和数据上云场景下,表或文件级别的数据同步。支持的数据源类型请参考单表支持的数据源类型。
- 分库分表同步
适用于数据入湖和数据上云场景下,多库多表同步场景。支持的数据源类型请参考分库分表同步支持的数据源类型。
- 整库迁移
适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景。支持的数据源类型请参考整库同步支持的数据源类型。
需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对MRS HBase的支持迁移场景概览:
|
支持迁移场景 |
单表读取 |
单表写入 |
分库分表读取 |
分库分表写入 |
整库读取 |
整库写入 |
|---|---|---|---|---|---|---|
|
是否支持 |
√ |
√ |
x |
√ |
x |
x |
核心能力速览
- 连接配置
配置项
支持情况
说明
认证方式
SIMPLE
KERBEROS
支持通过SIMPLE/KERBEROS认证方式访问MRS集群。
支持版本
1.x
2.x
支持Hbase 1.x/2.x版本读写能力。
- 读取能力
配置项
支持情况
说明
增量读取
√
支持 【RowKey条件】或【起止时间】 模式,可实现增量读取。
分片并发
√
支持根据region水平分片,多线程并行抽取,显著提升吞吐效率。
自定义字段
√
可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需。
脏数据处理
√
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。
- 写入能力
配置项
支持情况
说明
导入前清空数据
√
支持在数据导入前进行数据清空。
脏数据处理
√
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。
并发写入
√
支持并发写入,提升写入效率。
创建数据集成离线作业
在DataArts Studio数据开发中新建MRS HBase集成作业,详情请参见新建离线处理集成作业。
创建数据源
在DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接。
创建数据集成离线作业
在DataArts Studio数据开发中新建DataArts Fabric SQL集成作业,详情请参见新建离线处理集成作业。