更新时间:2024-12-03 GMT+08:00
分享

实时作业概述

DataArts Studio的Migration服务提供了实时数据同步功能,可将数据通过同步技术从一个数据源复制到其他数据源,并保持一致,实现关键业务数据的实时流动。

  • 常用场景:实时分析,报表系统,数仓环境等。
  • 同步特点:实时同步功能聚焦于表和数据,并满足多种灵活性的需求,例如多对一、一对多,动态增减同步表,不同库表名之间同步数据等。
    图1 实时同步原理

    实时处理集成作业功能当前在北京四、上海一、广州已上线(其他region后续会逐步放开,敬请期待!),但需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员

功能概述

实时集成作业支持多种数据源、多种场景下的实时数据同步,用户可根据自主需求,一次性全量加实时增量同步多个库表,功能总览如下图所示。

图2 功能总览图
表1 基本功能

功能

描述

多种数据源间的数据同步

支持多种数据源链路组合,您可以将多种输入及输出数据源搭配组成同步链路进行数据同步。详情请参见支持的数据源

复杂网络环境下的数据同步

支持云数据库、本地IDC、ECS自建数据库等多种环境下的数据同步。在配置同步任务前,您可以根据数据库所在网络环境,选择合适的同步解决方案来确保数据集成资源组与您将同步的数据来源端与目标端网络环境已经连通,对应数据库环境与网络连通配置详情请参见:网络打通

多类场景下的数据同步

支持单表、整库及分库分表实时增量数据同步。

  • 单表同步:支持将源端一个实例下的单张表实时同步至目的端一个实例下的单张表。
  • 整库同步:支持将源端一个实例下多个库的多张表批量实时同步到目的端一个实例下的多个库表,一个任务中最多支持200张目标表。
  • 分库分表同步:支持将源端多个实例下多个分库的多张分表同步到目的端一个实例下的单个库表。

实时同步任务配置

支持通过简易的可视化配置完成实时数据同步。

  • 数据源自定义参数配置。
  • 图形化选择源端库表、正则匹配源端库表。
  • 自定义源端与目的端库表匹配规则。
  • 字段映射:附加字段、字段赋值(常量、变量、UDF)。
  • 自动建表.
  • 定义DDL消息处理策略。

实时同步任务运维

支持异常恢复、暂停恢复、动态增减表、任务监控、配置告警、查看及导出任务日志等运维功能。

同步场景

Migration实时同步功能支持多种拓扑类型的同步场景,用户可根据自身需求进行规划,详细说明可参考以下内容。

  • 单表同步

    支持将源端一个实例下的单张表实时同步至目的端一个实例下的单张表。

    图3 单表同步
  • 整库同步

    支持将源端一个实例下多个库的多张表批量实时同步到目的端一个实例下的多个库表,一个任务中最多支持200张目标表。

    图4 整库同步
  • 分库分表同步

    支持将源端多个实例下多个分库的多张分表同步到目的端一个实例下的单个库表。

    图5 分库分表同步

基本特性

实时数据集成为大数据开发提供了支撑,具有以下特性:

  • 实时性:支持数据秒级同步。
  • 可靠性:通过异常恢复,自动重试等机制确保数据的一致性和准确性。
  • 多样性:
    • 数据源多样性:源端和目的端有多种数据源可供选择,为用户提供了多种选择。
    • 场景多样性:部分链路支持全量和增量同步,部分链路支持分库分表。
  • 可维护性:支持作业监控和日志查看,方便运维人员进一步定位。
  • 易用性:长界面更易操作,用户只需配置必要信息,学习成本减低。

相关文档