更新时间:2024-10-16 GMT+08:00
分享

增量数据迁移

将上一次迁移后,在源端数据库中发生变化(新增、修改或删除)的数据同步至目的端华为云数据湖探索(DLI)。

前提条件

操作步骤

  1. 登录迁移中心控制台
  2. 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。
  3. 单击页面右上角的“创建迁移任务”按钮,右侧弹出创建迁移任务窗口。

  4. 源端组件选择“MaxCompute”,目的端组件选择“数据湖探索 DLI”,任务类型选择“增量数据迁移”,单击“下一步”,进入详细配置页面。

  5. 根据表1,配置增量数据迁移任务参数。

    表1 增量数据迁移参数配置说明

    区域

    参数

    配置说明

    基本信息

    任务名称

    默认创建名称为“MaxCompute到DLI增量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。

    迁移工具

    选择在完成准备工作时与迁移中心连接成功的Edge。

    源端配置

    源端连接

    选择创建的源端连接

    增量区间

    选择T-N区间作为增量数据的迁移范围,即任务开始执行时间的前 24 x N 小时内的增量数据。例如:选择T-1,2024/06/06 14:50执行任务,则表示迁移从 2024/06/05 14:50 到 2024/06/06 14:50(现在)的增量数据。

    如果勾选“指定日期”,将只迁移指定日期内的增量数据。

    分区筛选方式

    根据数据的分区属性来选择和检索数据。默认为更新时间

    更新时间:筛选出最近或在特定时间段内有更新的数据。

    创建时间:筛选出在特定时间窗口内创建的数据。

    MaxCompute参数

    非必填参数,一般为空。如有需要,可参考MaxCompute参数文档进行配置。

    数据范围

    按库筛选

    即按项目筛选,在数据库参数框中输入项目名即可。如果数据库中有不需要迁移的表,可以下载CSV格式的“排除表”模板,参考b.~e.在模板中添加不需要迁移的表信息,然后上传至MgC。

    按表筛选

    1. 下载CSV格式的模板。
    2. 下载后用记事本打开该CSV模板文件。
      注意:

      请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。

    3. 保留CSV文件中的第一行不变,从第二行开始,每行填写一个表的迁移信息,格式为“{MC项目名},{表名}”,其中MC项目名代表MaxCompute项目名称,表名代表具体的表名称。
      须知:
      • 每行的“MC项目名”和“表名”之间使用英文逗号隔开,不要使用空格或其他分隔符。
      • 每添加完一个表的信息后,使用回车键换行。
    4. 完成所有表信息的添加后,保存CSV文件的更改。
    5. 将编辑并保存好的CSV文件上传至MgC。

    目的端配置

    目的端连接

    选择创建的目的端DLI 通用队列连接

    注意:

    切勿选择DLI SQL队列。

    自定义参数

    根据实际需求进行配置,支持的自定义参数详情请参考conf参数说明自定义参数说明

    • 如果是公网迁移,需要填写以下4个参数:

    • 如果是专线迁移,需要填写以下8个参数:

      • spark.dli.metaAccess.enable:填写true。
      • spark.dli.job.agency.name:填写在完成准备工作时配置的DLI委托权限名称
      • mgc.mc2dli.data.migration.dli.file.path:填写在完成准备工作时存放migration-dli-spark-1.0.0.jar包的OBS路径。例如:obs://mgc-test/data/migration-dli-spark-1.0.0.jar
      • mgc.mc2dli.data.migration.dli.spark.jars:填写在完成准备工作时存放fastjson-1.2.54.jar和datasource.jar包的OBS路径,以数组形式传入,路径带双引号,以英文逗号隔开。例如:["obs://mgc-test/data/datasource.jar","obs://mgc-test/data/fastjson-1.2.54.jar"]
      • spark.sql.catalog.mc_catalog.tableWriteProvider:填写tunnel。
      • spark.sql.catalog.mc_catalog.tableReadProvider:填写tunnel。
      • spark.hadoop.odps.end.point:填写源端MaxCompute服务所在地域的VPC网络Endpoint信息。各地域VPC网络Endpoint信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://service.cn-hongkong.maxcompute.aliyun-inc.com/api”
      • spark.hadoop.odps.tunnel.end.point:填写源端MaxCompute服务所在地域的VPC网络Tunnel Endpoin信息。各地域VPC网络Tunnel Endpoin信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://dt.cn-hongkong.maxcompute.aliyun-inc.com”

    迁移选项

    大表规则

    设置大表条件,当符合大表的条件时,将自动按分区拆分迁移子任务。建议保持默认,也可根据实际需求修改。

    小表规则

    设置小表条件,当符合小表的条件时,自动将多个小表合并到一个迁移子任务中,提高迁移效率。建议保持默认,也可根据实际需求修改。

    并发连接数

    设置迁移并发数。默认为3,1≤取值范围≤10。

    单文件SQL数

    每批提交的文件中所包含的SQL条数。默认为3,1≤推荐取值范围≤50。

  6. 配置完成后,选择任务的运行方式。

    • 创建的迁移任务可重复运行,每运行一次,即会生成一条任务实例。
    • 单击任务名称,可以修改任务配置。
    • 立即运行:如果需要立即运行迁移任务,可以勾选“保存后立即运行”,然后单击“保存”按钮,会在任务管理列表中生成一条元数据增量迁移任务并自动开始执行迁移。

    • 手动运行:如果需要后续手动启动迁移任务,则只需单击“保存”按钮,在任务管理列表中生成一条元数据增量迁移任务。在需要启动迁移时,单击操作列的“运行”,手动启动迁移。

  7. 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务的迁移进度以及产生的所有运行实例。

    单击进度统计列的“查看”,进入进度详情页面。可以查看迁移的数据表清单、状态以及该任务下所创建的迁移子任务。

  8. (可选)数据迁移完成后,可以使用MgC提供的大数据校验功能,对源端和目的端数据进行一致性校验。详细的操作步骤请参考MaxCompute迁移至DLI数据校验

相关文档