更新时间:2024-11-21 GMT+08:00
分享

大数据校验概述

迁移中心 MgC为多种大数据计算/存储引擎,如Hive、Hbase、Doris和MaxCompute等,提供了一致性校验方法。通过一致性校验,您可以更加放心地进行大数据迁移操作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。

校验方式说明

  • 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。
  • 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。
  • 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小时内自动进行多次校验,可以持续关注数据一致性变化情况。第二日0点自动停止任务。
  • 指定日期校验:仅适用于分区为年月日格式的分区表,支持周期性指定一个或多个连续日期分区进行校验。分区格式不为年月日的表不会进行校验。
  • 指定时间校验:用户可以选择一个时间段,校验该时间段内的数据。只能选择当前时间之前的时间段进行校验。

支持的源端、目的端组件

源端组件

目的端组件

  • Hive
  • Hbase
  • Doris
  • MaxCompute
  • ClickHouse
  • Delta Lake
  • Hudi
  • Hive
  • DLI
  • MRS(Doris)
  • MRS(Hbase)
  • MRS(ClickHouse)
  • CloudTable(ClickHouse)
  • CloudTable(HBase)
  • Delta
  • Hudi

各组件支持的校验方式

组件

支持的校验方式

Hive

  • 全量校验
  • 日级增量校验
  • 小时级增量校验
  • 指定日期校验

DLI

MaxCompute

  • 全量校验
  • 日级增量校验
  • 小时级增量校验
  • 指定日期校验

Doris

  • 全量校验
  • 日级增量校验
  • 小时级增量校验

Hbase

  • 全量校验
  • 指定时间校验

ClickHouse

全量校验

阿里云云数据库ClickHouse

全量校验

CloudTable(HBase)

  • 全量校验
  • 指定时间校验

CloudTable(ClickHouse)

全量校验

Delta

  • 全量校验
  • 日级增量校验
  • 小时级增量校验
  • 指定日期校验

Hudi

  • 全量校验
  • 日级增量校验
  • 小时级增量校验
  • 指定日期校验

相关文档