文档首页/ 迁移中心 MgC/ 最佳实践/ 大数据迁移后数据校验/ 阿里云 ClickHouse迁移至CloudTable ClickHouse数据校验
更新时间:2025-10-09 GMT+08:00

阿里云 ClickHouse迁移至CloudTable ClickHouse数据校验

本文主要介绍将阿里云 ClickHouse数据迁移至华为云CloudTable ClickHouse后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。

准备工作

需要先在源端内网环境中安装用于配合数据校验的工具MgC Agent(原Edge)并登录,方法请参见安装Linux版本的MgC Agent

操作步骤

  1. 登录迁移中心管理控制台
  2. 单击左侧导航栏的“配置管理”,进入配置管理页面。
  3. 在“项目管理”页签,单击“创建项目”,右侧弹出创建新项目窗口。

    图1 创建项目

  4. 项目类型选择“大数据迁移”,输入自定义项目名称,单击“创建”。

    图2 创建大数据迁移项目

  5. 创建项目完成后,参考连接迁移中心,将MgC Agent与云端MgC控制台建立连接。
  6. 连接成功后,需要在MgC Agent上分别添加源端阿里云 ClickHouse凭证和目的端CloudTable ClickHouse凭证,类型选择“大数据-ClickHouse”,认证方式选择“用户名/密码”。凭证的添加方法请参考添加资源凭证
  7. 在MgC控制台左侧导航栏选择“大数据校验”,进入大数据校验页面。在左侧导航栏的项目下拉列表中选择步骤4.创建的项目。
  8. 首次使用大数据校验功能时,需要先启用MgC Agent。单击“选择并启用迁移中心Agent”按钮,在弹窗的下拉列表中,选择与迁移中心连接成功的MgC Agent。

    在进行大数据校验时,请确保MgC Agent一直处于在线并启用状态。

  9. 功能入口区域,单击“大数据迁移准备”,进入大数据迁移准备页面。
  10. 选择“连接管理”,单击“创建连接”,右侧弹出新增连接窗口。

    图3 创建连接

  11. 连接类型选择“阿里云云数据库 ClickHouse”,单击“下一步”。

  12. 根据ClickHouse组件参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。

    表1 ClickHouse组件参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“阿里云云数据库ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。

    迁移中心Agent

    选择步骤5.与MgC建立连接的MgC Agent。

    ClickHouse凭证(可选)

    选择步骤6.在MgC Agent添加的源端阿里云 ClickHouse凭证。

    数据库链接

    填写连接源端ClickHouse集群的外网地址。可以在集群信息页面,查看外网地址。

  13. 测试连接通过后,单击“确认”按钮,创建云服务连接完成。
  14. 选择元数据管理,单击建元数据同步任务按钮,右侧弹出创建任务-元数据同步窗口。

    图4 创建元数据同步任务

  15. 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。

    表2 元数据同步任务参数配置说明

    参数

    配置说明

    任务名称

    默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。

    元数据连接

    选择步骤12.创建的元数据连接。

    数据库(可选)

    填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。不填则代表同步全部数据库。

    并发线程数

    设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和MgC Agent所安装主机的计算资源。

  16. 任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。

    图5 元数据同步任务管理

  17. 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
  18. 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。

    图6 任务实例管理

  19. 大数据校验页面的功能入口区域,单击“表管理”,进入表管理页面的表组页签。
  20. 单击“新增表组”,弹出新增表组窗口。根据新增表组参数说明,配置参数后,单击“确认”按钮,创建表组。

    表3 新增表组参数说明

    参数

    说明

    表组名

    用户自定义

    元数据连接

    选择步骤12.创建的元数据连接。

    注意:

    表组中的所有表必须来源于同一个元数据来源。

    校验标准

    选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。

    说明(可选)

    您可以输入用于区分表组的说明。

  21. 表管理页面,选择库表清单页签,勾选要加入同一表组的数据表,单击列表上方的“表组管理 > 批量加入组”,在弹出的修改表组窗口中,选择要加入的表组,单击“确认”。

    如果需要新增数据表,可以通过导入数据表的方式添加,方法请参考导入数据表并加入表组

  22. 功能入口区域,单击“大数据迁移准备”,进入大数据迁移准备页面。
  23. 选择“连接管理”,单击“创建连接”,右侧弹出新增连接窗口。

    图7 创建连接

  24. 连接类型选择“CloudTable(ClickHouse)”,单击“下一步”,进入详细配置页面。

  25. 根据ClickHouse组件参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。

    表4 ClickHouse组件参数配置说明

    参数

    配置说明

    所属源

    选择目的端

    连接名称

    默认创建名称为“CloudTable-ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。

    迁移中心Agent

    选择步骤5.与MgC建立连接的MgC Agent。

    CloudTable (ClickHouse)凭证

    选择步骤6.在MgC Agent添加的目的端CloudTable ClickHouse凭证。

    数据库链接

    填写连接到CloudTable(ClickHouse)的数据库链接地址。可以在ClickHouse集群的基本信息获取,对应参数为“集群访问地址”。

  26. 创建阿里云云数据库 ClickHouse统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤20.创建的表组。

    • 任务类型请选择大数据组件中的“阿里云云数据库 ClickHouse”。

    • 统计方式仅支持“全量校验”。

  27. 创建CloudTable(ClickHouse)统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤20.创建的表组。

    • 任务类型请选择大数据组件中的“CloudTable(ClickHouse)”。

    • 统计方式仅支持“全量校验”。

  28. 阿里云云数据库 ClickHouse统计任务和CloudTable(ClickHouse)统计任务执行完成后(实例状态为“已完成”),在校验结果页面可以查看并导出任务的执行结果,方法请参考查看并导出校验结果