更新时间:2025-12-05 GMT+08:00
分享

各数据源的支持情况

数据集成(离线作业)采用读写分离架构设计,支持任意数据源的读写组合,能够灵活实现不同数据源之间的同步。

  • 读写分离,任意组合

    在数据集成(离线作业)中,每个数据源的“读”和“写”能力是独立的。只要某个数据源支持“读”,即可作为数据同步的源端;只要某个数据源支持“写”,即可作为数据同步的目标端。

    用户可以根据业务需求,自由组合任意“支持读”的数据源与“支持写”的数据源,以形成跨源同步链路,例如从关系型数据库同步到湖仓存储、从文件系统同步到实时数仓等。

  • 与老版本CDM作业(即数据集成(CDM作业))的差异

    数据集成(CDM作业)相比,数据集成(离线作业)进行了架构优化升级,其核心能力之一是支持真正的读写分离和任意链路组合的跨源同步。

    传统的CDM架构通常不支持灵活的读写分离,也无法实现任意数据源之间的组合同步,往往仅限于部分预定义的、固定的数据源同步场景。而本服务通过解耦“读”与“写”的能力,并开放组合功能,能够支持更广泛、更灵活的数据流转与集成需求,适应复杂多样的业务场景。

  • 单表、分库分表、整库支持情况
    数据集成离线同步支持单表同步至目标单表、分库分表同步至目标单表及整库同步至目标单表三种同步方式,不同的同步方式支持的数据源有所不同:
    • 单表同步:适用于数据入湖和数据上云场景下,表或文件级别的数据同步。
    • 分库分表同步:适用于数据入湖和数据上云场景下,多库多表同步场景。
    • 整库迁移:适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景。

因各版本集群支持的数据源有所差异,其他版本支持的数据源仅做参考。

支持的数据源类型

组合示例:FTP-Hudi,如果数据源FTP支持单表读取,同时数据源Hudi支持单表写入,则用户可以配置一条从FTP到 Hudi 的同步任务(即FTP-Hudi),以实现将FTP上的文件数据同步写入到Hudi表中。

此类跨源组合的可行性仅取决于两端数据源是否分别具备读取与写入的能力,而无需限定为同一类数据源或特定组合。

支持单表同步的数据源如表1所示:

表1 不同数据源读写能力说明

数据源分类

数据源

单表读取

单表写入

分库分表读取

分库分表写入

整库读取

整库写入

关系型数据库

MySQL

x

PostgreSQL

√(仅部分region支持)

x

SQL Server

√(仅部分region支持)

x

x

Oracle

x

x

x

SAP HANA

x

x

x

GBase

x

x

x

数据仓库

DWS

x

x

DLI

x

x

x

Apache Hive

x

x

√(仅部分region支持)

MRS Hive

x

x

√(仅部分region支持)

MRS Hudi

x

x

x

Doris

x

x

x

MRS ClickHouse

x

x

x

Open ClickHouse

x

x

x

半结构化数据源

MRS HBase

x

x

x

MongoDB

x

x

x

Redis

x

x

x

Elasticsearch

x

x

x

DMS Kafka

x

x

x

Apache RocketMq

x

x

x

x

LTS

√(仅部分region支持)

x

x

x

x

x

Rest Client

x

x

x

x

x

文件系统

OBS

x

x

x

FTP

√(仅部分region支持)

x

√(仅部分region支持)

x

x

SFTP

√(仅部分region支持)

x

√(仅部分region支持)

x

x

Apache HDFS

x

x

x

相关文档