文档首页/ 迁移中心 MgC/ 最佳实践/ 大数据迁移后数据校验/ 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验
更新时间:2025-10-09 GMT+08:00

阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验

本文主要介绍将阿里云EMR ClickHouse数据迁移至华为云MRS ClickHouse后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。

准备工作

需要先在源端内网环境中安装用于配合数据校验的工具MgC Agent(原Edge)并登录,方法请参见安装Linux版本的MgC Agent

操作步骤

  1. 登录迁移中心管理控制台
  2. 单击左侧导航栏的“配置管理”,进入配置管理页面。
  3. 在“项目管理”页签,单击“创建项目”,右侧弹出创建新项目窗口。

    图1 创建项目

  4. 项目类型选择“大数据迁移”,输入自定义项目名称,单击“创建”。

    图2 创建大数据迁移项目

  5. 创建项目完成后,参考连接迁移中心,将MgC Agent与云端MgC控制台建立连接。
  6. 连接成功后,需要在MgC Agent上分别添加阿里云EMR ClickHouse凭证和目的端MRS ClickHouse凭证,类型选择“大数据-ClickHouse”,认证方式选择“用户名/密码”。凭证的添加方法请参考添加资源凭证

    阿里云EMR ClickHouse的凭证填写登录EMR ClickHouse Server的用户名和密码。您可以在EMR控制台ClickHouse服务配置页面的server-users页签,查看用户名和密码(users.default.password)。

  7. 在MgC控制台左侧导航栏选择“大数据校验”,进入大数据校验页面。在左侧导航栏的项目下拉列表中选择步骤4.创建的项目。
  8. 首次使用大数据校验功能时,需要先启用MgC Agent。单击“选择并启用迁移中心Agent”按钮,在弹窗的下拉列表中,选择与迁移中心连接成功的MgC Agent。

    在进行大数据校验时,请确保MgC Agent一直处于在线并启用状态。

  9. 功能入口区域,单击“大数据迁移准备”,进入大数据迁移准备页面。
  10. 选择“连接管理”,单击“创建连接”,右侧弹出新增连接窗口。

    图3 创建连接

  11. 连接类型选择“ClickHouse”,单击“下一步”。

  12. 根据ClickHouse组件参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。

    表1 ClickHouse组件参数配置说明

    参数

    配置说明

    所属源

    选择源端

    连接名称

    默认创建名称为“ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。

    迁移中心Agent

    选择步骤5.与MgC建立连接的MgC Agent。

    ClickHouse凭证(可选)

    选择步骤6.在MgC Agent添加的阿里云EMR ClickHouse凭证。

    安全集群

    选择是否部署在安全集群下。

    ClickHouse Server IP

    填写连接到阿里云EMR ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。

    HTTP端口

    非安全集群下,与阿里云EMR ClickHouse 服务器通信的 HTTP 端口。

    可以在EMR控制台ClickHouse服务的配置页面,单击server-config页签,查看“http_port”参数获取。

    HTTP SSL/TLS端口

    安全集群下,与阿里云EMR ClickHouse 服务器通信的HTTPS 端口。

    可以在EMR控制台ClickHouse服务的配置页面,单击server-config页签,查看“http_port”参数获取。

  13. 测试连接通过后,单击“确认”按钮,创建云服务连接完成。
  14. 选择元数据管理,单击建元数据同步任务按钮,右侧弹出创建任务-元数据同步窗口。

    图4 创建元数据同步任务

  15. 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。

    表2 元数据同步任务参数配置说明

    参数

    配置说明

    任务名称

    默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。

    元数据连接

    选择步骤12.创建的元数据连接。

    数据库(可选)

    填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。不填则代表同步全部数据库。

    并发线程数

    设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和MgC Agent所安装主机的计算资源。

  16. 任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。

    图5 元数据同步任务管理

  17. 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
  18. 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。

    图6 任务实例管理

  19. 大数据校验页面的功能入口区域,单击“表管理”,进入表管理页面的表组页签。
  20. 单击“新增表组”,弹出新增表组窗口。根据新增表组参数说明,配置参数后,单击“确认”按钮,创建表组。

    表3 新增表组参数说明

    参数

    说明

    表组名

    用户自定义

    元数据连接

    选择步骤12.创建的元数据连接。

    注意:

    表组中的所有表必须来源于同一个元数据来源。

    校验标准

    选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。

    说明(可选)

    您可以输入用于区分表组的说明。

  21. 表管理页面,选择库表清单页签,勾选要加入同一表组的数据表,单击列表上方的“表组管理 > 批量加入组”,在弹出的修改表组窗口中,选择要加入的表组,单击“确认”。

    如果需要新增数据表,可以通过导入数据表的方式添加,方法请参考导入数据表并加入表组

  22. 功能入口区域,单击“大数据迁移准备”,进入大数据迁移准备页面。
  23. 选择“连接管理”,单击“创建连接”,右侧弹出新增连接窗口。

    图7 创建连接

  24. 连接类型选择“ClickHouse”,单击“下一步”,进入详细配置页面。

  25. 根据ClickHouse组件参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。

    表4 ClickHouse组件参数配置说明

    参数

    配置说明

    所属源

    选择目的端

    连接名称

    默认创建名称为“ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。

    迁移中心Agent

    选择步骤5.与MgC建立连接的MgC Agent。

    ClickHouse凭证(可选)

    选择步骤6.在MgC Agent添加的目的端MRS ClickHouse凭证。

    安全集群

    选择是否部署在安全集群下。

    ClickHouse Server IP

    填写连接到MRS ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。

    HTTP端口

    非安全集群下,与MRS ClickHouse 服务器通信的 HTTP 端口。

    可以登录目的端集群的FusionInsight Manager,选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”,搜索“http_port”参数获取。

    HTTP SSL/TLS端口

    安全集群下,与MRS ClickHouse 服务器通信的HTTPS 端口。

    可以登录目的端集群的FusionInsight Manager,选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”,搜索“https_port”参数获取。

    采集资源使用信息

    可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。

    须知:

    使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。

    • 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。
      • 区域:选择需要校验的数据所在区域/项目。
      • 项目:选择需要校验的数据所在项目。
      • 集群ID:输入需要校验的数据所在集群ID。
    • 如果所选凭证与登录迁移中心 MgC的账号凭证不同,请手动输入如下参数信息:
      • 区域ID:输入需要校验的数据所在区域ID。例如,区域为“华南-广州”,则输入“cn-south-1”
      • 项目ID:输入与区域对应的项目ID。
      • 集群ID:输入需要校验的数据所在集群ID。
    说明:
    • 区域ID和项目ID可以在“我的凭证 > API凭证”查看。
    • 集群ID的获取方法请参考获取MRS集群ID

  26. 分别创建源端阿里云EMR ClickHouse目的端MRS ClickHouse统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤20.创建的表组。

    • 任务类型请选择大数据组件中的“ClickHouse”。

    • 统计方式仅支持“全量校验”。

  27. 当任务执行完成后(实例状态为“已完成”),在校验结果页面可以查看并导出任务的执行结果,方法请参考查看并导出校验结果