文档首页/ 迁移中心 MGC/ 常见问题/ 大数据校验/ Delta 数据量较大时,如何优化校验任务?
更新时间:2024-11-16 GMT+08:00
分享

Delta 数据量较大时,如何优化校验任务?

本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。

操作步骤

  1. 参考创建元数据连接,创建第一个Delta元数据连接。
  2. 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
  3. 创建N个Delta元数据连接,除了执行机IP和端口不同以外,其余参数配置需要与步骤1.中的第一个元数据连接保持一致。

    • “N”需要根据您现有的ECS资源和表的数量来确定。在ECS资源充足且表数量非常多的情况下,增加元数据连接的数量可以提高数据校验的效率。
    • 为避免数据重复,除了步骤1.创建的第一个元数据连接以外,新增的元数据连接不需要创建同步任务进行元数据采集。

  4. 参考创建表组并添加数据表,将源端数据表加入表组中。其中元数据连接选择步骤1.创建的第一个元数据连接。
  5. 分别创建源端执行机连接目的端执行机连接,方法请参考创建执行机连接
  6. 分别创建源端Delta统计任务目的端Delta统计任务并执行,方法请参考创建统计任务并执行校验。需要注意,在配置任务时,命令参数中的Spark-submit命令需要配置mgc.delta.metadata.client.ips参数,参数值为所有元数据连接的IP地址和端口,用英文逗号分隔。

    例如:mgc.delta.metadata.client.ips = xx.xx.xx.xx:22,xx.xx.xx.xx:22

相关文档