更新时间:2024-12-05 GMT+08:00
分享

元数据增量感知

识别出上一次迁移后,在源端数据库中发生变化的元数据,并同步至目的端华为云数据湖探索(DLI)。

前提条件

准备工作

  • 开通spark 3.3.1白名单

    使用该功能前,请联系技术支持人员,将您添加到spark 3.3.1版本的白名单中。

  • 配置DLI作业桶

    需要购买一个OBS桶或并行文件系统并设置为DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据。方法请参考配置DLI作业桶

操作步骤

  1. 登录迁移中心控制台
  2. 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。
  3. 单击页面右上角的“创建迁移任务”按钮,右侧弹出创建迁移任务窗口。

  4. 源端组件选择“MaxCompute”,目的端组件选择“数据湖探索 DLI”,任务类型选择“元数据增量感知”,单击“下一步”,进入详细配置页面。

  5. 根据表1,配置元数据增量感知任务参数。

    表1 元数据增量感知参数配置说明

    区域

    参数

    配置说明

    基本信息

    任务名称

    默认创建名称为“MaxCompute到DLI元数据增量感知-4位随机数(字母和数字)”,也可以自定义名称。

    迁移工具

    选择在完成准备工作时与迁移中心连接成功的Edge。

    源端配置

    源端连接

    选择创建的源端连接

    MaxCompute参数

    非必填参数,一般为空。如有需要可参考MaxCompute参数文档进行配置。

    数据范围

    按库筛选

    即按项目筛选,在数据库参数框中输入项目名即可。如果数据库中有不需要迁移的表,可以下载CSV格式的“排除表”模板,参考b.~e.在模板中添加不需要迁移的表信息,然后上传至MgC。

    按表筛选

    1. 下载CSV格式的模板。
    2. 下载后用记事本打开该CSV模板文件。
      注意:

      请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。

    3. 保留CSV文件中的第一行不变,从第二行开始,每行填写一个表的迁移信息,格式为“{MC项目名},{表名}”,其中MC项目名代表MaxCompute项目名称,表名代表具体的表名称。
      须知:
      • 每行的“MC项目名”和“表名”之间使用英文逗号隔开,不要使用空格或其他分隔符。
      • 每添加完一个表的信息后,使用回车键换行。
    4. 完成所有表信息的添加后,保存CSV文件的更改。
    5. 将编辑并保存好的CSV文件上传至MgC。

    目的端配置

    目的端连接

    选择创建的目的端DLI SQL队列连接

    注意:

    切勿选择通用队列。

    自定义参数

    根据实际需求进行配置,支持的自定义参数详情请参考conf参数说明自定义参数说明

    迁移选项

    并发连接数

    设置迁移并发数。默认为3,1≤取值范围≤10。

  6. 配置完成后,选择任务的运行方式。

    • 创建的迁移任务可重复运行,每运行一次,即会生成一条任务实例。
    • 单击任务名称,可以修改任务配置。
    • 立即运行:如果需要立即运行迁移任务,可以勾选“保存后立即运行”,然后单击“保存”按钮,会在任务管理列表中生成一条元数据增量感知任务并自动开始执行迁移。

    • 手动运行:如果需要后续手动启动迁移任务,则只需单击“保存”按钮,在任务管理列表中生成一条元数据增量感知任务。在需要启动迁移时,单击操作列的“运行”,手动启动迁移。

  7. 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务产生的运行实例以及迁移进度。

    单击进度统计列的“查看”,进入进度详情页面。可以查看元数据的增量感知结果并导出任务结果

  8. 单击进度详情页面右上角的“打开DDL编辑器”,可以根据不同的增量感知结果,对源端和目的端的表结构进行比较和编辑。

相关文档