MaxCompute迁移至DLI数据校验
本文主要介绍将阿里云 MaxCompute数据迁移至华为云数据湖探索 DLI后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。
准备工作
需要先在源端内网环境中安装用于配合数据校验的工具Edge并注册用户,方法请参见安装Linux版本的Edge工具。
操作步骤
- 登录迁移中心管理控制台。在总览页面,单击“创建迁移项目”。
- 在弹出的窗口中,自定义项目名称,仔细查看并了解项目类型的适用场景后,选择项目类型,单击“确认”。
在左侧导航栏的“配置管理 > 项目管理”页签可以查看和管理已创建的项目。
- 创建项目完成后,参考连接迁移中心,将Edge工具与云端MgC控制台建立连接。
- 连接成功后,需要在Edge上分别添加源端“大数据-MaxCompute”凭证和目的端“大数据-数据湖搜索(DLI)”凭证,认证方式选择“AK/SK”。凭证的添加方法请参考添加资源凭证。
- DLI侧的AK/SK获取方法请参考如何获取AK/SK。
- MaxCompute侧的AK/SK获取方法请参考查看RAM用户的AccessKey信息。
- 在MgC控制台左侧导航栏选择“调研 > 大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择步骤2.创建的项目。
- 在元数据采集区域,单击“创建连接”,右侧弹出创建连接窗口。
- 连接类型选择“MaxCompute”,单击“下一步”。
- 根据MaxCompute连接参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。
表1 MaxCompute连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“MaxCompute-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择步骤3.与MgC建立连接的Edge工具。
阿里云凭证
选择步骤4.在Edge侧添加的MaxCompute凭证。
项目名称
输入需要采集的MaxCompute项目名称。项目名称可在MaxCompute侧控制台获取。
Endpoint
输入MaxCompute服务所在地域的Endpoint信息。
各地域Endpoint信息请参考Endpoint对照表。
- 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。
- 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。
表2 元数据同步任务参数配置说明 参数
配置说明
任务名称
默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。
元数据连接
选择步骤8.创建的元数据连接。
数据库
填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。
须知:元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。
并发线程数
设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和迁移工具(Edge)所安装主机的计算资源。
- 在元数据采集区域,单击“采集任务”,进入元数据采集页面。
- 在任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
- 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
- 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。首次使用大数据校验功能时,需要先选择并启用迁移工具。单击“选择并启用迁移工具”按钮,弹出选择迁移工具窗口。在下拉列表中,选择步骤3.与迁移中心连接成功的Edge。
在进行大数据校验时,请确保迁移工具Edge一直处于在线并启用状态。
- 在功能入口区域,单击“表管理”,进入表管理页面的表组页签。
- 单击“新增表组”,弹出新增表组窗口。根据新增表组参数说明,配置参数后,单击“确认”按钮,创建表组。
表3 新增表组参数说明 参数
说明
表组名
用户自定义
元数据连接
选择步骤8.创建的元数据连接。
注意:表组中的所有表必须来源于同一个元数据来源。
校验标准
选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。
说明(可选)
您可以输入用于区分表组的说明。
- 在表管理页面,选择库表清单页签,勾选要加入同一表组的数据表,单击列表上方的“表组管理 > 批量加入组”,在弹出的修改表组窗口中,选择要加入的表组,单击“确认”。
如果需要新增数据表,可以通过导入数据表的方式添加,方法请参考导入数据表并加入表组。
- 在大数据校验页面的功能入口区域,单击“连接管理”,进入连接管理页面。
- 单击页面右上角的“新增连接”,右侧弹出新增连接窗口。连接类型选择“数据湖探索 (DLI)”,单击“下一步”,进入详细配置页面。
- 根据DLI服务参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。
表4 DLI服务参数配置说明 参数
配置说明
所属源
选择目的端。
连接名称
默认创建名称为“DLI-4位随机数(字母和数字)”,也可以自定义名称。
DLI凭证
选择步骤4.在Edge侧添加的DLI凭证。如果所选凭证与登录迁移中心账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。
区域
输入需要校验的数据(即目的端数据)所在区域的代码。例如:ap-southeast-1。可以参考终端节点获取不同区域的区域代码信息。
项目
输入需要校验的数据所在的项目ID。获取方法请参考获取项目的名称和ID。
队列名称
输入需要进行校验的DLI队列名称。队列类型必须是SQL队列。
- 在MgC控制台,创建MaxCompute统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤步骤16.创建的表组。
- 任务类型请选择大数据组件中的“MaxCompute”。
- 统计方式按实际需求选择,各统计方式说明请参见校验方式说明。
- 任务类型请选择大数据组件中的“MaxCompute”。
- 在MgC控制台,创建数据湖探索 DLI统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤步骤16.创建的表组。
- 任务类型请选择大数据组件中的“数据湖探索 DLI”。
- 统计方式按实际需求选择,各统计方式说明请参见校验方式说明。
- 任务类型请选择大数据组件中的“数据湖探索 DLI”。
- 当MaxCompute统计任务和数据湖探索 DLI统计任务分别执行完成后(实例状态为“已完成”),在校验结果页面可以查看并导出任务的执行结果,方法请参考查看并导出校验结果。