文档首页/ 迁移中心 MGC/ 最佳实践/ 大数据迁移后数据校验/ DeltaLake(无元数据)迁移至MRS DeltaLake数据校验
更新时间:2025-02-13 GMT+08:00
分享

DeltaLake(无元数据)迁移至MRS DeltaLake数据校验

本文主要介绍将自建DeltaLake环境上的数据迁移至华为云MRS DeltaLake之后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。

DeltaLake不存在元数据,无法通过数据湖元数据同步方式进行数据采集,需要通过导入数据的方式获取元数据信息。

准备工作

需要先在源端内网环境中安装用于配合数据校验的工具MgC Agent(原Edge)并注册用户,方法请参见安装Linux版本的MgC Agent

操作步骤

  1. 登录迁移中心管理控制台
  2. 单击左侧导航栏的“配置管理”,进入配置管理页面。
  3. 选择“项目管理”页签,单击“创建项目”,右侧弹出创建新项目窗口。

    图1 创建项目

  4. 项目类型选择“复杂迁移(大数据迁移)”,输入自定义项目名称,单击“创建”。

    图2 创建大数据迁移项目

  5. 创建项目完成后,参考连接迁移中心,将MgC Agent与云端MgC控制台建立连接。
  6. 连接成功后,需要在MgC Agent上分别添加源端“Delta Lake执行机”凭证和目的端“MRS Delta Lake执行机”凭证,类型选择“大数据-执行机”,认证方式选择“用户名/密码”。凭证的添加方法请参考添加资源凭证

  7. 在MgC控制台左侧导航栏选择“实施 > 大数据校验”,进入大数据校验页面。在左侧导航栏的项目下拉列表中选择步骤4.创建的项目。
  8. 首次使用大数据校验功能时,需要先启用MgC Agent。单击“选择并启用迁移中心Agent”按钮,在弹窗的下拉列表中,选择与迁移中心连接成功的MgC Agent。

    在进行大数据校验时,请确保MgC Agent一直处于在线并启用状态。

  9. 功能入口区域,单击“迁移准备”,进入迁移准备页面。
  10. 选择“连接管理”,单击“创建连接”,右侧弹出新增连接窗口。

    图3 创建连接

  11. 连接类型选择“Delta Lake(无元数据)”,单击“下一步”。

  12. 根据表1,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。

    表1 Delta Lake(无元数据)连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“Delta-Lake-无元数据-4位随机数(字母和数字)”,也可以自定义名称。

    迁移中心Agent

    选择步骤5.与MgC建立连接的MgC Agent。

    执行机凭证

    选择步骤6.在MgC Agent侧添加的源端Delta Lake执行机凭证。

    执行机IP

    填写连接执行机的IP地址。

    执行机连接端口

    填写连接执行机的端口,默认为22端口。

    Spark客户端目录

    填写Spark客户端的bin目录的绝对路径

    环境变量地址

    请添加环境变量文件的绝对路径,示例:/opt/bigdata/client/bigdata_env, 如果该参数不为空,则环境变量文件在命令执行前将被自动“source”

    SQL文件地址

    填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。

    须知:

    迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。

    采集资源使用信息

    可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。

    须知:

    使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。

    • 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。
      • 区域:选择需要校验的数据所在区域/项目。
      • 项目:选择需要校验的数据所在项目。
      • 集群ID:输入需要校验的数据所在集群ID。
    • 如果所选凭证与登录迁移中心 MgC的账号凭证不同,请手动输入如下参数信息:
      • 区域ID:输入需要校验的数据所在区域ID。例如,区域为“华南-广州”,则输入“cn-south-1”
      • 项目ID:输入与区域对应的项目ID。
      • 集群ID:输入需要校验的数据所在集群ID。
    说明:
    • 区域ID和项目ID可以在“我的凭证 > API凭证”查看。
    • 集群ID的获取方法请参考获取MRS集群ID

  13. 测试连接通过后,单击“确认”按钮,创建云服务连接完成。
  14. 选择元数据管理,单击“库表清单”,进入库表清单页签。

  15. 单击“导入数据表”按钮,弹出导入数据表窗口。

  16. 单击“xlsx模板下载”,将导入模板下载到本地。打开模板填写对应信息后保存。
  17. 单击导入数据表窗口中的“添加文件”按钮,选择填写后的模板文件进行上传,然后单击“确认”按钮,完成数据表导入。导入完成后,在库表清单页签可以查看导入的数据列表。

  18. 大数据校验页面的功能入口区域,单击“表管理”,进入表管理页面的表组页签。
  19. 单击“新增表组”,弹出新增表组窗口。根据新增表组参数说明,配置参数后,单击“确认”按钮,创建表组。

    表2 新增表组参数说明

    参数

    说明

    表组名

    用户自定义

    元数据连接

    选择步骤12.创建的元数据连接。

    注意:

    表组中的所有表必须来源于同一个元数据来源。

    校验标准

    选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。

    说明(可选)

    您可以输入用于区分表组的说明。

  20. 表管理页面,选择库表清单页签,勾选要加入同一表组的数据表,单击列表上方的“表组管理 > 批量加入组”,在弹出的修改表组窗口中,选择要加入的表组,单击“确认”。

    如果需要新增数据表,可以通过导入数据表的方式添加,方法请参考导入数据表并加入表组

  21. 分别创建源端执行机连接目的端执行机连接,方法请参考创建执行机连接。执行机凭证分别选择步骤6.在MgC Agent侧添加的源端和目的端执行机凭证。
  22. 在MgC控制台,分别创建源端目的端Delta统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤19.创建的表组。

    • 任务类型请选择大数据组件中的“Delta”。

    • 统计方式按实际需求选择,各统计方式说明请参见校验方式说明

  23. 当源端与目的端的统计任务都执行完成后(实例状态为“已完成”),在校验结果页面可以查看并导出任务的执行结果,方法请参考查看并导出校验结果

相关文档