更新时间:2024-08-30 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
CDM迁移近一个月的数据
备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
| 
       实例类型  | 
     
       核数/内存  | 
     
       最大带宽/基准带宽  | 
     
       并发作业数  | 
     
       适用场景  | 
    
|---|---|---|---|---|
| 
       cdm.large  | 
     
       8核/16G  | 
     
       3/0.8 Gbps  | 
     
       16  | 
     
       单表规模≥1000万条。  | 
    
| 
       cdm.xlarge  | 
     
       16核/32G  | 
     
       10/4 Gbps  | 
     
       32  | 
     
       适合10GE高速带宽进行TB以上的数据量迁移。  | 
    
| 
       cdm.4xlarge  | 
     
       64核/128G  | 
     
       40/36 Gbit/s  | 
     
       64  | 
     
       -  | 
    
 
  其他场景中,可根据情况选择多个CDM集群同时迁移,加快迁移效率。MRS HDFS多副本策略会占用网络带宽,影响迁移速率。
华为云CDM创建连接
- 创建2个CDM集群:
    
 
     DataArts Studio实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,您无需再购买数据集成增量包,可以跳过这部分内容。
如果您需要再创建新的CDM集群,请参考购买批量数据迁移增量包章节,完成购买数据集成增量包的操作。
- 集群规格选择“cdm.xlarge”。
 - 集群所属的VPC与MRS所属的VPC一致,同时也要与云专线连通的VPC的一致。
 - 其它参数可以自定义,或者保持默认。
 
 - 创建CDH HDFS连接:
    
- 单击CDM集群操作列的“作业管理”,进入作业管理界面。
 - 选择,进入连接器类型的选择界面,选择“Apache HDFS”。
      图1 选择连接器类型
       - 单击“下一步”,配置连接参数,依次填写相关信息。URI格式为“hdfs://NameNode IP:端口”,若CDH没有启动Kerberos认证则“认证类型”选择“SIMPLE”。
      

 - 单击“测试”,如果右上角显示“测试成功”,表示连接成功,单击“保存”。
 
 - 创建MRS HDFS连接:
    
- 在作业管理界面,选择,进入连接器类型的选择界面,选择“MRS HDFS”。
      

 - 单击“下一步”,配置连接参数,依次填写相关信息。“认证类型”选择“SIMPLE”,运行模式保持默认即可。
      

 - 单击“测试”,如果右上角显示“测试成功”,表示连接成功,单击“保存”。
 
 - 在作业管理界面,选择,进入连接器类型的选择界面,选择“MRS HDFS”。
      
 
华为云CDM创建迁移作业
- 在CDM集群的作业管理界面,选择,每个表文件的目录作为一个迁移作业。
    

- 源端作业配置
      
- 源连接名称:选择上面创建的CDH HDFS连接。
 - 源目录或文件:选择CDH中HBase的HBase表所在目录。例如“/hbase/data/default/table_20180815”,表示迁移“table_20180815”这个目录下所有文件。
 - 文件格式:文件的复制要选择“二进制格式”。
 
 - 目的端作业配置
      
- 目的连接名称:选择上面创建的MRS HDFS连接。
 - 写入目录:选择MRS HBase的目录,例如“/hbase/data/default/table_20180815/”。这个目录必须带有表名(例如这里的表名是table_20180815),如果该目录不存在,CDM会自动创建该目录。
 - 文件格式:同源端相同,选择“二进制格式”。
 
 - 其它可选参数保持默认即可。
 
 - 源端作业配置
      
 - 单击“下一步”进行任务配置,其中抽取并发数默认为3,适当增加可以增加迁移速率,本例中设置为8,其它参数保持默认即可。
    

 - 重复上述步骤创建其它迁移目录的作业,参数配置都相同。2个CDM集群的作业个数平均分配,并发执行。
 - 作业执行完成后,可在作业的“历史记录”中查看详细的数据统计。
    

 
   父主题: 车联网大数据零丢失搬迁入湖