更新时间:2024-11-30 GMT+08:00

全量数据迁移

将源端数据库中的所有数据迁移到目的端华为云数据湖探索(DLI)。

前提条件

操作步骤

  1. 登录迁移中心控制台
  2. 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。
  3. 单击页面右上角的“创建迁移任务”按钮,右侧弹出创建迁移任务窗口。

  4. 源端组件选择“MaxCompute”,目的端组件选择“数据湖探索 DLI”,任务类型选择“全量数据迁移”,单击“下一步”,进入详细配置页面。

  5. 根据表1,配置全量数据迁移任务参数。

    表1 全量数据迁移参数配置说明

    区域

    参数

    配置说明

    基本信息

    任务名称

    默认创建名称为“MaxCompute到DLI全量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。

    迁移工具

    选择在完成准备工作时与迁移中心连接成功的Edge。

    源端配置

    源端连接

    选择创建的源端连接

    预估项目周期(天)(可选)

    配置后,系统会在任务执行时检查表的生命周期。若表的生命周期在项目的预期结束时间之前终止,则忽略该表。不配置则默认迁移所有表。

    MaxCompute参数

    非必填参数,一般为空。如有需要,可参考MaxCompute参数文档进行配置。

    数据范围

    按库筛选

    即按项目筛选,在数据库参数框中输入项目名即可。如果数据库中有不需要迁移的表,可以下载CSV格式的“排除表”模板,参考b.~e.在模板中添加不需要迁移的表信息,然后上传至MgC。

    按表筛选

    1. 下载CSV格式的模板。
    2. 下载后用记事本打开该CSV模板文件。
      注意:

      请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。

    3. 保留CSV文件中的第一行不变,从第二行开始,每行填写一个表的迁移信息,格式为“{MC项目名},{表名}”,其中MC项目名代表MaxCompute项目名称,表名代表具体的表名称。
      须知:
      • 每行的“MC项目名”和“表名”之间使用英文逗号隔开,不要使用空格或其他分隔符。
      • 每添加完一个表的信息后,使用回车键换行。
    4. 完成所有表信息的添加后,保存CSV文件的更改。
    5. 将编辑并保存好的CSV文件上传至MgC。

    目的端配置

    目的端连接

    选择创建的目的端DLI 通用队列连接

    注意:

    切勿选择DLI SQL队列。

    自定义参数

    根据实际需求进行配置,支持的自定义参数详情请参考conf参数说明自定义参数说明

    • 如果是公网迁移,需要填写以下4个参数:

    • 如果是专线迁移,需要填写以下8个参数:

      • spark.dli.metaAccess.enable:填写true。
      • spark.dli.job.agency.name:填写在完成准备工作时配置的DLI委托权限名称
      • mgc.mc2dli.data.migration.dli.file.path:填写在完成准备工作时存放migration-dli-spark-1.0.0.jar包的OBS路径。例如:obs://mgc-test/data/migration-dli-spark-1.0.0.jar
      • mgc.mc2dli.data.migration.dli.spark.jars:填写在完成准备工作时存放fastjson-1.2.54.jar和datasource.jar包的OBS路径,以数组形式传入,路径带双引号,以英文逗号隔开。例如:["obs://mgc-test/data/datasource.jar","obs://mgc-test/data/fastjson-1.2.54.jar"]
      • spark.sql.catalog.mc_catalog.tableWriteProvider:填写tunnel。
      • spark.sql.catalog.mc_catalog.tableReadProvider:填写tunnel。
      • spark.hadoop.odps.end.point:填写源端MaxCompute服务所在地域的VPC网络Endpoint信息。各地域VPC网络Endpoint信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://service.cn-hongkong.maxcompute.aliyun-inc.com/api”
      • spark.hadoop.odps.tunnel.end.point:填写源端MaxCompute服务所在地域的VPC网络Tunnel Endpoin信息。各地域VPC网络Tunnel Endpoin信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://dt.cn-hongkong.maxcompute.aliyun-inc.com”

    迁移选项

    大表规则

    设置大表条件,当符合大表的条件时,将自动按分区拆分迁移子任务。建议保持默认,也可根据实际需求修改。

    小表规则

    设置小表条件,当符合小表的条件时,自动将多个小表合并到一个迁移子任务中,提高迁移效率。建议保持默认,也可根据实际需求修改。

    并发连接数

    设置迁移并发数。默认为3,1≤取值范围≤10。

    单文件SQL数

    每批提交的文件中所包含的SQL条数。默认为3,1≤推荐取值范围≤50。

  6. 配置完成后,选择任务的运行方式。

    • 创建的迁移任务可重复运行,每运行一次,即会生成一条任务实例。
    • 单击任务名称,可以修改任务配置。
    • 立即运行:如果需要立即运行迁移任务,可以勾选“保存后立即运行”,然后单击“保存”按钮,会在任务管理列表中生成一条全量数据迁移任务并自动开始执行迁移。

    • 手动运行:如果需要后续手动启动迁移任务,则只需单击“保存”按钮,在任务管理列表中生成一条全量数量迁移任务。在需要启动迁移时,单击操作列的“运行”,手动启动迁移。

  7. 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务产生的运行实例以及迁移进度。

    单击状态列的“重新运行”,可以多次运行迁移实例。

    单击进度统计列的“查看”,进入进度详情页面。可以查看迁移的数据表清单、状态并导出任务结果

  8. (可选)数据迁移完成后,可以使用MgC提供的大数据校验功能,对源端和目的端数据进行一致性校验。详细的操作步骤请参考MaxCompute迁移至DLI数据校验