更新时间:2025-11-13 GMT+08:00
分享

各数据源的支持情况

数据集成(离线作业)采用读写分离架构设计,支持任意数据源的读写组合,能够灵活实现不同数据源之间的同步。

  • 读写分离,任意组合

    在数据集成(离线作业)中,每个数据源的“读”和“写”能力是独立的。只要某个数据源支持“读”,即可作为数据同步的源端;只要某个数据源支持“写”,即可作为数据同步的目标端。

    用户可以根据业务需求,自由组合任意“支持读”的数据源与“支持写”的数据源,以形成跨源同步链路,例如从关系型数据库同步到湖仓存储、从文件系统同步到实时数仓等。

  • 与老版本CDM作业(即数据集成(CDM作业))的差异

    数据集成(CDM作业)相比,数据集成(离线作业)进行了架构优化升级,其核心能力之一是支持真正的读写分离和任意链路组合的跨源同步。

    传统的CDM架构通常不支持灵活的读写分离,也无法实现任意数据源之间的组合同步,往往仅限于部分预定义的、固定的数据源同步场景。而本服务通过解耦“读”与“写”的能力,并开放组合功能,能够支持更广泛、更灵活的数据流转与集成需求,适应复杂多样的业务场景。

  • 单表、分库分表、整库支持情况
    数据集成离线同步支持单表同步至目标单表、分库分表同步至目标单表及整库同步至目标单表三种同步方式,不同的同步方式支持的数据源有所不同:

因各版本集群支持的数据源有所差异,其他版本支持的数据源仅做参考。

单表支持的数据源类型

组合示例:FTP-Hudi,如果数据源FTP支持单表读取,同时数据源Hudi支持单表写入,则用户可以配置一条从FTP到 Hudi 的同步任务(即FTP-Hudi),以实现将FTP上的文件数据同步写入到Hudi表中。

此类跨源组合的可行性仅取决于两端数据源是否分别具备读取与写入的能力,而无需限定为同一类数据源或特定组合。

支持单表同步的数据源如表1 离线作业不同数据源读写能力说明所示:
表1 离线作业不同数据源读写能力说明

数据源

单表读

单表写

说明

DWS

不支持DWS物理机纳管模式。

DLI

不支持DWS物理机纳管模式。

MRS Hive

暂不支持2.x版本,建议使用的版本:
  • 1.2.X
  • 3.1.X

MRS Hudi

暂不支持2.x版本,建议使用的版本:
  • 1.2.X
  • 3.1.X

Doris

-

MRS ClickHouse

建议使用的版本:21.3.4.X。

Open ClickHouse

建议使用的版本:21.3.4.X。

MRS HBase

MRS HBase建议使用的版本:
  • 2.1.X
  • 1.3.X

OBS

-

FTP

x

-

SFTP

x

-

RDS(MySQL)

创建数据连接时也支持用户使用自建的数据库,如MySQL在选择界面对应的RDS(MySQL)即可。

RDS(PostgreSQL)

创建数据连接时也支持用户使用自建的数据库,如PostgreSQL在选择界面对应的RDS(PostgreSQL)即可。

RDS(SQL Server)

创建数据连接时也支持用户使用自建的数据库,如SQL Server在选择界面对应的RDS(SQL Server)即可。

Oracle

-

RDS(SAP HANA)

仅支持2.00.050.00.1592305219版本。

GBASE8A

-

RDS(达梦数据库DM)

x

x

创建数据连接时也支持用户使用自建的数据库,如达梦数据库DM在选择界面对应的RDS(达梦数据库DM)即可。

MongoDB

  • MongoDB建议使用的版本:4.2。
  • 暂不支持开启SSL的MongoDB数据源。

Redis

-

Apache HDFS

  • Apache HDFS目前仅支持作为源端数据源。
  • Apache HDFS建议使用的版本:
    • 2.8.X
    • 3.1.X

DMS Kafka

-

LTS

x

-

Apache RocketMq

x

-

Elasticsearch

-

Rest Client

x

-

OpenGauss(GaussDB)

-

分库分表同步支持的数据源类型

分库分表同步适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于多库多表同步场景。

支持分库分表同步的数据源如下所示:

源端为RDS(MySQL)时支持分库分表同步。

整库同步支持的数据源类型

整库同步适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于数据库离线同步场景,不适用于在线实时同步。

支持整库同步的数据源(已支持的数据源即可作为源端,又可作为目的端组成不同链路)如下所示:
  • 读取能力:DWS、RDS(MySQL)、RDS(PostgreSQL)
  • 写入能力:DWS、DLI

各数据源支持的能力说明

表2 不同数据源支持的能力说明

数据源

读取能力

字段映射

写入能力

任务配置

类型

数据源

分片

自定义字段

数据源调优参数

字段批量映射

字段映射样例

数据源调优参数

脏数据

关系型数据库

MySQL

PostgreSQL

SQL Server

Oracle

DWS

SAP HANA

Gbase8A

达梦数据库 DM

×

×

×

×

×

×

×

神通(ST)

×

×

×

×

×

×

×

Hadoop

MRS Hive

×

×

MRS Hudi

×

×

×

MRS HBase

×

HDFS

×

×

×

×

对象存储

OBS

×

×

×

×

×

×

数据仓库

DLI

×

×

×

RedShift

×

×

×

×

×

×

×

YASHAN

×

×

×

×

×

×

×

Doris

MRS ClickHouse

×

非关系型数据库

MongoDB

消息系统

DMS Kafka

MRS Kafka

×

×

×

×

×

×

×

Apache Kafka

×

×

×

×

×

×

×

LTS

-

-

-

-

-

-

RocketMQ

×

×

×

×

DIS

×

×

×

×

×

×

×

LogHub(SLS)

×

×

×

×

×

×

×

搜索

Elasticsearch

×

×

文件

FTP

×

×

×

×

SFTP

×

×

×

×

API

Rest-API

×

×

×

×

其他

GaussDB

×

×

×

×

×

×

×

相关文档