使用CDM服务迁移Hadoop数据至MRS集群
应用场景
本章节适用于将线下IDC机房或者公有云Hadoop集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。
本章节以通过华为云CDM服务 2.9.1.200版本进行数据迁移为例介绍。不同版本操作可能有差异,具体操作详情以实际版本对应的操作指导为准。
CDM服务支持迁移的数据源可参考支持的数据源,数据源为Apache HDFS时,建议使用的版本为2.8.X、3.1.X,请执行搬迁前务必确认是否支持搬迁。
方案架构
CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。
CDM服务迁移Hadoop数据至MRS集群方案如图1所示。
方案优势
- 简单易用:免编程,向导式任务开发界面,通过简单配置几分钟即可完成迁移任务开发。
- 迁移效率高: 基于分布式计算框架进行数据任务执行和数据传输优化,并针对特定数据源写入做了专项优化,迁移效率高。
- 实时监控:迁移过程中可以执行自动实时监控、告警和通知操作。
约束与限制
搬迁数据量较大时,对网络通信要求较高,执行搬迁任务时,可能会影响其他业务,建议在业务空闲期进行数据迁移任务。
步骤1:新建数据连接
- 登录CDM管理控制台。
- 创建CDM集群,该CDM集群的安全组、虚拟私有云、子网需要和迁移目的端集群保持一致,保证CDM集群和MRS集群之间网络互通。
- 在“集群管理”页面单击待操作集群对应“操作”列的“作业管理”。
- 在“连接管理”页签,单击“新建连接”。
- 参考CDM服务的新建连接页面,分别添加到迁移源端集群和迁移目的端集群的两个HDFS连接。
连接类型根据实际集群来选择,如果是MRS集群,连接器类型可以选择“MRS HDFS”,如果是自建集群可以选择“Apache HDFS”。
图2 HDFS连接
步骤2:新建迁移作业
- 在“表/文件迁移” 页签,单击“新建作业”。
- 选择源连接、目的连接:
- 作业名称:用户自定义任务名称,名称由英文字母、下划线或者数字组成,长度必须在1到256个字符之间。
- 源连接名称:选择迁移源端集群的HDFS连接,作业运行时将从此端复制导出数据。
- 目的连接名称:选择迁移目的端集群的HDFS连接,作业运行时会将数据导入此端。
- 请参见配置HDFS源端参数配置源端连接的作业参数,需要迁移的文件夹可通过“目录过滤器”和“文件过滤器”参数设置符合规则的目录和文件进行迁移。
例如迁移匹配“/user/test*”文件夹下文件,该场景下“文件格式”固定为“二进制格式”。图3 配置作业参数
- 请参见配置HDFS目的端参数配置目的端连接的作业参数。
- 单击“下一步”进入任务配置页面。
- 如需定期将新增数据迁移至目的端集群,可在该页面进行配置,也可在任务执行后再参考步骤 3配置定时任务。
- 如无新增数据需要后续定期迁移,则跳过该页面配置直接单击“保存”回到作业管理界面。
图4 任务配置
- 选择“作业管理”的“表/文件迁移”页签,在待运行作业的“操作”列单击“运行”,即可开始HDFS文件数据迁移,并等待作业运行完成。