更新时间:2024-11-16 GMT+08:00
Delta 数据量较大时,如何优化校验任务?
本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。
操作步骤
- 参考创建元数据连接,创建第一个Delta元数据连接。
- 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
- 创建N个Delta元数据连接,除了执行机IP和端口不同以外,其余参数配置需要与步骤1.中的第一个元数据连接保持一致。
- “N”需要根据您现有的ECS资源和表的数量来确定。在ECS资源充足且表数量非常多的情况下,增加元数据连接的数量可以提高数据校验的效率。
- 为避免数据重复,除了步骤1.创建的第一个元数据连接以外,新增的元数据连接不需要创建同步任务进行元数据采集。
- 参考创建表组并添加数据表,将源端数据表加入表组中。其中元数据连接选择步骤1.创建的第一个元数据连接。
- 分别创建源端执行机连接和目的端执行机连接,方法请参考创建执行机连接。
- 分别创建源端Delta统计任务和目的端Delta统计任务并执行,方法请参考创建统计任务并执行校验。需要注意,在配置任务时,命令参数中的Spark-submit命令需要配置mgc.delta.metadata.client.ips参数,参数值为所有元数据连接的IP地址和端口,用英文逗号分隔。
例如:mgc.delta.metadata.client.ips = xx.xx.xx.xx:22,xx.xx.xx.xx:22
父主题: 大数据校验