更新时间:2024-10-18 GMT+08:00

实时处理集成作业概述

DataArts Studio为您提供的实时数据同步功能,方便您使用单表或整库同步方式,将源端数据库中部分或全部表的数据变化实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。

实时处理集成作业功能当前在北京四、上海一、广州、新加坡已上线(其他region后续会逐步放开,敬请期待!),但需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员

功能概述

数据集成的实时同步包括实时读取、转换和写入三种基础能力,通过内部定义的中间数据格式进行交互。

实时同步任务支持多种数据源同步功能。同时针对某些场景,支持整库实时同步全增量同步任务,您可以一次性实时同步多个表。

图1 原理图
表1 基本功能

功能

描述

多种数据源间的数据同步

实时同步支持多种数据源型链路组合,您可以将多种输入及输出数据源搭配组成同步链路进行数据同步。详情请参见支持的数据源

复杂网络环境下的数据同步

支持云数据库、本地IDC、ECS自建数据库等多种数据库的数据同步。您可以根据数据库所在网络环境,选择合适的同步解决方案来实现数据源与资源组的网络连通。在配置同步任务前,您需要确保数据集成资源组与您将同步的数据来源端与目标端网络环境已经连通,对应数据库环境与网络连通配置详情请参见:配置实时网络连接

数据同步场景

实时同步支持单表实时增量数据同步至目标端单表、分库分表实时增量数据同步至目标端单表、整库(多表)实时增量数据同步至目标多表。

  • 单表增量数据实时同步:支持单表实时同步。
  • 分库分表:支持将多个来源的多个数据库的多个分表迁移到目的端的一个表中,支持灵活配置来源库来源表和目标表的映射关系。
  • 整库增量数据实时同步:支持同时对源端多张库表批量操作。
    • 支持将整个数据库的变化日志同步到目标端中,一般用作实时日志的收集。
    • 支持一次性配置一个实例下多个库的多个表,一个任务中最多支持50个目标表。

实时同步任务配置

实时同步任务配置时支持的能力如下,您无需编写代码,通过简单的任务配置即可实现单表实时同步,整库实时数据的收集。

  • 单表增量数据实时同步

    支持字段映射、附加字段、UDF转换。

  • 分库分表
  • 整库数据实时同步
    • 库表名匹配规则
    • 自动建表
    • 为目标字段赋值

      实时同步默认同名映射,将源端字段写入目标端同名字段中,未映射成功的字段将无法同步。同时,支持您为目标表新增字段并为字段赋值常量或变量。

    • 定义DDL消息处理策略

      来源数据源会包含许多DDL操作,进行实时同步时,您可以根据业务需求,对不同的DDL消息设置同步至目标端的处理策略。

实时同步任务运维

支持对同步任务设置监控报警。

基本特性

实时处理集成作业为大数据开发提供了支撑,具有以下特性:

  • 实时性:支持数据秒级迁移。
  • 可靠性:通过异常恢复,重试等机制确保数据的一致性和准确性。
  • 多样性:
    • 数据源多样性:源端和目的端可供选择多种数据源,为用户提供了多种选择。
    • 链路多样性:部分链路支持全量和增量同步,部分链路支持分库分表。
  • 可维护性:支持作业监控和日志查看,方便运维人员进一步定位。
  • 易用性:长界面更易操作,用户只需配置必要信息,学习成本减低。