数据迁移到MRS前网络准备
数据迁移网络方案说明
进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。
- 客户线下数据中心迁移数据到华为云MRS集群,通过云专线服务为用户搭建本地数据中心与云上VPC之间的专属连接通道。可以使用华为云的云专线服务或使用第三方的云专线服务来连通华为云网络。 图1 线下数据中心迁移

- 客户在华为云上自建大数据集群(或老版本的MRS集群)需要迁移到华为云MRS集群,且在同一个Region区域和VPC子网,可以使自建集群和MRS集群使用相同安全组、VPC、子网网络,从而保证网络连通。 图2 线上同Region同VPC迁移

- 客户在华为云上自建大数据集群(或老版本的MRS集群)需要迁移到华为云MRS集群,且在同一个Region区域,但是使用不同VPC子网。需要使用VPC对等连接方式配置网络连通。 图3 线上同Region不同VPC迁移

- 客户在华为云上自建大数据集群(或老版本的MRS集群)需要迁移到华为云MRS集群,但在不同Region区域,可以通过使用云连接构建跨区域VPC的网络连接。 图4 线上不同Region迁移

数据迁移常用端口
组件 | 配置参数 | 默认端口 | 端口说明 |
|---|---|---|---|
HDFS | dfs.namenode.rpc.port | 9820 | Hadoop 2.x和Hadoop 3.x版本。 迁移过程中,需要访问NameNode获取文件列表。 |
dfs.datanode.port | 25009 | 迁移过程中,需要访问DataNode读取具体文件数据。 | |
ZooKeeper | clientPort | 2181 | ZooKeeper客户端连接ZooKeeper服务器。 |
Kerberos | kdc_ports | 21732 | Kerberos服务认证,非Kerberos集群不涉及。 |
Hive | hive.metastore.port | 9083 | Hive 2.x和Hive3.x版本。 MetaStore提供Thrift服务的端口。迁移过程中,需要访问该端口查询表元数据信息。 |
HBase | hbase.master.port | 16000 | HBase1.x和HBase 2.x版本。 HMaster RPC端口。该端口用于HBase客户端连接到HMaster。 |
hbase.regionserver.port | 16020 | RS (RegionServer) RPC端口,该端口用于HBase客户端连接到RegionServer。 | |
Manager | N/A | 28443 | FusionInsight/MRS Manager页面端口。 CDM迁移时候访问该地址获取集群配置。 |
N/A | 20009 | FusionInsight/MRS Manager CAS协议端口,用于登录认证。 |

