更新时间:2024-08-30 GMT+08:00
CDM迁移近一个月的数据
备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
实例类型 |
核数/内存 |
最大带宽/基准带宽 |
并发作业数 |
适用场景 |
---|---|---|---|---|
cdm.large |
8核/16G |
3/0.8 Gbps |
16 |
单表规模≥1000万条。 |
cdm.xlarge |
16核/32G |
10/4 Gbps |
32 |
适合10GE高速带宽进行TB以上的数据量迁移。 |
cdm.4xlarge |
64核/128G |
40/36 Gbit/s |
64 |
- |
其他场景中,可根据情况选择多个CDM集群同时迁移,加快迁移效率。MRS HDFS多副本策略会占用网络带宽,影响迁移速率。
华为云CDM创建连接
- 创建2个CDM集群:
DataArts Studio实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,您无需再购买数据集成增量包,可以跳过这部分内容。
如果您需要再创建新的CDM集群,请参考购买批量数据迁移增量包章节,完成购买数据集成增量包的操作。
- 集群规格选择“cdm.xlarge”。
- 集群所属的VPC与MRS所属的VPC一致,同时也要与云专线连通的VPC的一致。
- 其它参数可以自定义,或者保持默认。
- 创建CDH HDFS连接:
- 单击CDM集群操作列的“作业管理”,进入作业管理界面。
- 选择“Apache HDFS”。
图1 选择连接器类型
,进入连接器类型的选择界面,选择 - 单击“下一步”,配置连接参数,依次填写相关信息。URI格式为“hdfs://NameNode IP:端口”,若CDH没有启动Kerberos认证则“认证类型”选择“SIMPLE”。
- 单击“测试”,如果右上角显示“测试成功”,表示连接成功,单击“保存”。
- 创建MRS HDFS连接:
- 在作业管理界面,选择“MRS HDFS”。
- 单击“下一步”,配置连接参数,依次填写相关信息。“认证类型”选择“SIMPLE”,运行模式保持默认即可。
- 单击“测试”,如果右上角显示“测试成功”,表示连接成功,单击“保存”。
- 在作业管理界面,选择“MRS HDFS”。
华为云CDM创建迁移作业
- 在CDM集群的作业管理界面,选择
- 源端作业配置
- 源连接名称:选择上面创建的CDH HDFS连接。
- 源目录或文件:选择CDH中HBase的HBase表所在目录。例如“/hbase/data/default/table_20180815”,表示迁移“table_20180815”这个目录下所有文件。
- 文件格式:文件的复制要选择“二进制格式”。
- 目的端作业配置
- 目的连接名称:选择上面创建的MRS HDFS连接。
- 写入目录:选择MRS HBase的目录,例如“/hbase/data/default/table_20180815/”。这个目录必须带有表名(例如这里的表名是table_20180815),如果该目录不存在,CDM会自动创建该目录。
- 文件格式:同源端相同,选择“二进制格式”。
- 其它可选参数保持默认即可。
,每个表文件的目录作为一个迁移作业。
- 源端作业配置
- 单击“下一步”进行任务配置,其中抽取并发数默认为3,适当增加可以增加迁移速率,本例中设置为8,其它参数保持默认即可。
- 重复上述步骤创建其它迁移目录的作业,参数配置都相同。2个CDM集群的作业个数平均分配,并发执行。
- 作业执行完成后,可在作业的“历史记录”中查看详细的数据统计。
父主题: 车联网大数据零丢失搬迁入湖