准备工作
本迁移将指导适用于多种不同场景下的HDFS、HBase、Hive数据向MRS集群的迁移工作。由于数据迁移过程中可能存在数据覆盖、丢失、损坏等风险,因此本指导只作为参考,具体的数据迁移方案的制定及实施需要华为云支持人员协同完成。
数据迁移前源集群的准备工作,目的是防止在数据迁移过程中源集群产生新数据,导致源集群与迁移后的目标集群数据不一致。在数据迁移完成之前,目标集群应处于初始状态,期间不能运行除数据迁移作业外的其他任何业务。
云数据迁移(Cloud Data Migration,简称CDM),是一种高效、易用的数据集成服务。CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高数据迁移和集成的效率,可参考Hadoop数据迁移到华为云MRS服务、HBase数据迁移到华为云MRS服务相关内容。
停止集群业务及相关服务
- 如果您的集群涉及到Kafka业务,请先停止所有向Kafka中生产数据的作业,等待Kafka的消费作业消费完Kafka中的存量数据后,再执行下一步操作。
- 停止所有与HDFS、HBase、Hive相关的业务和作业,然后停止HBase、Hive服务。
打通数据传输通道
- 当源集群与目标集群部署在同一区域的不同VPC时,请创建两个VPC之间的网络连接,打通网络层面的数据传输通道。请参见VPC对等连接。
- 当源集群与目标集群部署在同一VPC但属于不同安全组时,在VPC管理控制台,为每个安全组分别添加安全组规则。规则的“协议”为“ANY”,“方向”为“入方向”,“源地址”为“安全组”且是对端集群的安全组。
- 为源集群的安全组添加入方向规则,源地址选择目标集群的安全组。
- 为目标集群的安全组添加入方向规则,源地址选择源集群的安全组。
- 当源集群与目标集群部署在同一VPC同一安全组且两个集群都开启了Kerberos认证,需要为两个集群配置互信,具体请参考配置跨Manager集群互信。