元数据全量迁移
将源端数据库中的所有元数据迁移到华为云数据湖探索(DLI) 。
元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。
操作步骤
- 登录迁移中心控制台。
- 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。
- 单击页面右上角的“创建迁移任务”按钮,右侧弹出创建迁移任务窗口。
- 源端组件选择“MaxCompute”,目的端组件选择“数据湖探索 DLI”,任务类型选择“元数据全量迁移”,单击“下一步”,进入详细配置页面。
- 根据表1,配置元数据全量迁移任务参数。
表1 元数据全量迁移参数配置说明 区域
参数
配置说明
基本信息
任务名称
默认创建名称为“MaxCompute到DLI元数据全量迁移-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在完成准备工作时与迁移中心连接成功的Edge。
源端配置
源端连接
选择创建的源端连接。
MaxCompute参数
非必填参数,一般为空。如有需要,可参考MaxCompute参数文档进行配置。
数据范围
按库筛选
即按数据库进行筛选,在数据库参数框中输入待迁移的数据库名称。单击“添加数据库”,可以新增数据库,最多支持同时添加10个数据库。
如果数据库中有不需要迁移的表,可以下载CSV格式的“排除表”模板,参考b.~e.在模板中添加不需要迁移的表信息,然后上传至MgC。
按表筛选
企业项目ID(可选)
输入目的端DLI数据库所属的企业项目ID。企业项目ID的获取方法请参考如何获取企业项目ID。
内表转换
- 选择内表进行迁移时,迁移后的数据会存储在DLI中。
- 选择外表进行迁移时,迁移后的数据会存储在您指定的OBS路径下。
目的端配置
覆盖策略
对已有表的处理策略
- 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。
- 重建:如果目的端已经存在同名的数据表,该表及其数据将被完全删除,并根据源端的定义重新创建。
目的端连接
选择创建的目的端DLI SQL队列连接。
注意:切勿选择通用队列。
自定义参数
表类型
根据实际情况选择。
文件类型
根据实际情况选择。
压缩格式
根据实际情况选择。
迁移选项
并发连接数
设置迁移并发数。默认为3,1≤取值范围≤10。
表路径映射(可选)
用于确保在元数据迁移过程中,MaxCompute外表的元数据能够正确地迁移到目的端指定的存储位置,即在OSS中的源路径自动映射为目的端指定的OBS路径。
映射到目的端OBS的路径需要提前创建,并且除桶名以外,其余目录需要与源端OSS目录保存一致。
例如,源端表所在目录路径为:oss://oss-cn-hangzhou.aliyuncs.com/ali-test/documents/example_table,其中oss-cn-hangzhou.aliyuncs.com为桶所在地域的Endpoint,ali-test为桶名,documents为表的根目录,example_table为表目录。那么,映射到目的端的路径必须为:obs://hw-test/documents/example_table,除桶名外,根目录和表目录必须和源端一致。
填写示例:
- 源端:oss://oss-cn-hangzhou.aliyuncs.com/ali-test/documents/example_table
- 目的端:obs://hw-test/documents/example_table
说明:以上路径仅为示例,请在实际使用中替换为正确的路径。
- 配置完成后,选择任务的运行方式。
- 创建的迁移任务可重复运行,每运行一次,即会生成一条任务实例。
- 单击任务名称,可以修改任务配置。
- 立即运行:如果需要立即运行迁移任务,可以勾选“保存后立即运行”,然后单击“保存”按钮,会在任务管理列表中生成一条元数据全量迁移任务并自动开始执行迁移。
- 手动运行:如果需要后续手动启动迁移任务,则只需单击“保存”按钮,在任务管理列表中生成一条元数据全量迁移任务。在需要启动迁移时,单击操作列的“运行”,手动启动迁移。
- 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务产生的运行实例以及迁移进度。
单击进度统计列的“查看”,进入进度详情页面,可以查看并导出任务结果。