更新时间:2024-11-20 GMT+08:00
分享

数据复制

根据源集群与目标集群分别所处的区域及网络连通性,可分为以下几种数据复制场景。

同Region

当源集群与目标集群处于同一Region时,根据打通数据传输通道进行网络配置,打通网络传输通道。使用Distcp工具执行如下命令将源集群的HDFS、HBase、Hive数据文件以及Hive元数据备份文件复制至目的集群。

$HADOOP_HOME/bin/hadoop distcp <src> <dist> -p

其中,各参数的含义如下:

  • $HADOOP_HOME:目的集群Hadoop客户端安装目录。
  • <src>:源集群HDFS目录。
  • <dist>:目的集群HDFS目录。

不同Region

当源集群与目标集群处于不同Region时,用Distcp工具将源集群数据复制到OBS,借助OBS跨区域复制功能(请参见跨区域复制)将数据复制到对应目的集群所在Region的OBS,然后通过Distcp工具将OBS数据复制到目的集群的HDFS上。由于执行Distcp无法为OBS上的文件设置权限、属主/组等信息,因此当前场景在进行数据导出时也需要将HDFS的元数据信息进行导出并复制,以防HDFS文件属性信息丢失。

线下集群向云迁移

线下集群可以通过如下两种方式将数据迁移至云:

  • 云专线(DC)

    为源集群与目标集群之间建立云专线,打通线下集群出口网关与线上VPC之间的网络,然后参考同Region执行Distcp进行复制。

  • 数据快递服务(DES)

    对于TB或PB级数据上云的场景,华为云提供数据快递服务 DES。将线下集群数据及已导出的元数据复制到DES盒子,快递服务将数据递送到华为云机房,然后通过云数据迁移 CDM将DES盒子数据复制到HDFS。

相关文档