更新时间:2024-04-16 GMT+08:00

CDM迁移近一个月的数据

备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。

表1 CDM集群规格

实例类型

核数/内存

最大带宽/基准带宽

并发作业数

适用场景

cdm.large

8核/16G

3/0.8 Gbps

16

单表规模≥1000万条。

cdm.xlarge

16核/32G

10/4 Gbps

32

适合10GE高速带宽进行TB以上的数据量迁移。

cdm.4xlarge

64核/128G

40/36 Gbit/s

64

-

其他场景中,可根据情况选择多个CDM集群同时迁移,加快迁移效率。MRS HDFS多副本策略会占用网络带宽,影响迁移速率。

华为云CDM创建连接

  1. 创建2个CDM集群:

    DataArts Studio实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,您无需再购买数据集成增量包,可以跳过这部分内容。

    如果您需要再创建新的CDM集群,请参考购买DataArts Studio增量包,完成购买数据集成增量包的操作。

    • 集群规格选择“cdm.xlarge”
    • 集群所属的VPC与MRS所属的VPC一致,同时也要与云专线连通的VPC的一致。
    • 其它参数可以自定义,或者保持默认。
  2. 创建CDH HDFS连接:
    1. 单击CDM集群操作列的“作业管理”,进入作业管理界面。
    2. 选择连接管理 > 新建连接,进入连接器类型的选择界面,选择“Apache HDFS”

    3. 单击“下一步”,配置连接参数,依次填写相关信息。URI格式为“hdfs://NameNode IP:端口”,若CDH没有启动Kerberos认证则“认证类型”选择“SIMPLE”

    4. 单击“测试”,如果右上角显示“测试成功”,表示连接成功,单击“保存”
  3. 创建MRS HDFS连接:
    1. 在作业管理界面,选择连接管理 > 新建连接,进入连接器类型的选择界面,选择“MRS HDFS”

    2. 单击“下一步”,配置连接参数,依次填写相关信息。“认证类型”选择“SIMPLE”,运行模式保持默认即可。

    3. 单击“测试”,如果右上角显示“测试成功”,表示连接成功,单击“保存”

华为云CDM创建迁移作业

  1. 在CDM集群的作业管理界面,选择表/文件迁移 > 新建作业,每个表文件的目录作为一个迁移作业。

    • 源端作业配置
      • 源连接名称:选择上面创建的CDH HDFS连接
      • 源目录或文件:选择CDH中HBase的HBase表所在目录。例如“/hbase/data/default/table_20180815”,表示迁移“table_20180815”这个目录下所有文件。
      • 文件格式:文件的复制要选择“二进制格式”
    • 目的端作业配置
      • 目的连接名称:选择上面创建的MRS HDFS连接
      • 写入目录:选择MRS HBase的目录,例如“/hbase/data/default/table_20180815/”。这个目录必须带有表名(例如这里的表名是table_20180815),如果该目录不存在,CDM会自动创建该目录。
      • 文件格式:同源端相同,选择“二进制格式”
    • 其它可选参数保持默认即可。
  2. 单击“下一步”进行任务配置,其中抽取并发数默认为3,适当增加可以增加迁移速率,本例中设置为8,其它参数保持默认即可。

  3. 重复上述步骤创建其它迁移目录的作业,参数配置都相同。2个CDM集群的作业个数平均分配,并发执行。
  4. 作业执行完成后,可在作业的“历史记录”中查看详细的数据统计。