更新时间:2025-05-06 GMT+08:00

调研

大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。它包含如下三个模块,本节重点介绍的是大数据集群和大数据任务调度平台的迁移,大数据应用的迁移方法请参考应用迁移上云,本节只介绍差异部分。

  • 大数据集群迁移:将大数据集群(包括存储、计算和管理组件)迁移到新的运行环境,包括集群的重新配置和数据迁移。集群迁移需要考虑数据的迁移方式、网络传输速度、兼容性和数据一致性等因素。
  • 大数据任务调度迁移:是将现有的大数据任务调度系统、工作流和调度策略迁移到新的运行环境,包括梳理任务依赖关系、任务适配和改造、任务调优、部署、测试和验证。
  • 大数据应用迁移:是将基于大数据应用从一个运行环境迁移到另一个运行环境。

    大数据迁移遵循如下的流程:

    图1 大数据迁移流程

其中大数据应用的迁移请参考应用迁移上云,本章只对大数据应用迁移的特殊注意点进行描述。

大数据迁移流程每个阶段概述如下:
  1. 调研:调研大数据平台的版本和配置信息、数量类型和数据量、任务类型和任务量。
  2. 设计:设计大数据的部署架构、数据迁移方案、任务迁移方案和数据校验方案。
  3. 部署:部署大数据平台,包括集群部署和任务调度平台部署。
  4. 迁移:实施数据迁移和任务迁移。
  5. 验证:进行数据校验和任务验证。
  6. 切换:配合大数据应用进行切换。
  7. 保障:业务切换后进行一段时间的实时监控和特别运维保障。

请参考大数据调研的调研方法,调研大数据集群、大数据任务调度平台和大数据应用的现状信息。