元数据增量感知
识别出上一次迁移后,在源端数据库中发生变化的元数据,并同步至目的端华为云数据湖探索(DLI)。
准备工作
- 开通spark 3.3.1白名单
使用该功能前,请联系技术支持人员,将您添加到spark 3.3.1版本的白名单中。
- 配置DLI作业桶
需要购买一个OBS桶或并行文件系统并设置为DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据。方法请参考配置DLI作业桶。
操作步骤
- 登录迁移中心控制台。
- 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。
- 单击页面右上角的“创建迁移任务”按钮,右侧弹出创建迁移任务窗口。
- 源端组件选择“MaxCompute”,目的端组件选择“数据湖探索 DLI”,任务类型选择“元数据增量感知”,单击“下一步”,进入详细配置页面。
- 根据表1,配置元数据增量感知任务参数。
表1 元数据增量感知参数配置说明 区域
参数
配置说明
基本信息
任务名称
默认创建名称为“MaxCompute到DLI元数据增量感知-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在完成准备工作时与迁移中心连接成功的Edge。
源端配置
源端连接
选择创建的源端连接。
MaxCompute参数
非必填参数,一般为空。如有需要可参考MaxCompute参数文档进行配置。
数据范围
按库筛选
即按项目筛选,在数据库参数框中输入项目名即可。如果数据库中有不需要迁移的表,可以下载CSV格式的“排除表”模板,参考b.~e.在模板中添加不需要迁移的表信息,然后上传至MgC。
按表筛选
目的端配置
目的端连接
选择创建的目的端DLI SQL队列连接。
注意:切勿选择通用队列。
自定义参数
迁移选项
并发连接数
设置迁移并发数。默认为3,1≤取值范围≤10。
- 配置完成后,选择任务的运行方式。
- 创建的迁移任务可重复运行,每运行一次,即会生成一条任务实例。
- 单击任务名称,可以修改任务配置。
- 立即运行:如果需要立即运行迁移任务,可以勾选“保存后立即运行”,然后单击“保存”按钮,会在任务管理列表中生成一条元数据增量感知任务并自动开始执行迁移。
- 手动运行:如果需要后续手动启动迁移任务,则只需单击“保存”按钮,在任务管理列表中生成一条元数据增量感知任务。在需要启动迁移时,单击操作列的“运行”,手动启动迁移。
- 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务产生的运行实例以及迁移进度。
单击进度统计列的“查看”,进入进度详情页面。可以查看元数据的增量感知结果以及增量迁移列表清单和状态。
- 单击进度详情页面右上角的“打开DDL编辑器”,可以根据不同的增量感知结果,对源端和目的端的表结构进行比较和编辑。