各数据源的支持情况
数据集成(离线作业)采用读写分离架构设计,支持任意数据源的读写组合,能够灵活实现不同数据源之间的同步。
- 读写分离,任意组合
在数据集成(离线作业)中,每个数据源的“读”和“写”能力是独立的。只要某个数据源支持“读”,即可作为数据同步的源端;只要某个数据源支持“写”,即可作为数据同步的目标端。
用户可以根据业务需求,自由组合任意“支持读”的数据源与“支持写”的数据源,以形成跨源同步链路,例如从关系型数据库同步到湖仓存储、从文件系统同步到实时数仓等。
- 与老版本CDM作业(即数据集成(CDM作业))的差异
与数据集成(CDM作业)相比,数据集成(离线作业)进行了架构优化升级,其核心能力之一是支持真正的读写分离和任意链路组合的跨源同步。
传统的CDM架构通常不支持灵活的读写分离,也无法实现任意数据源之间的组合同步,往往仅限于部分预定义的、固定的数据源同步场景。而本服务通过解耦“读”与“写”的能力,并开放组合功能,能够支持更广泛、更灵活的数据流转与集成需求,适应复杂多样的业务场景。
- 单表、分库分表、整库支持情况
数据集成离线同步支持单表同步至目标单表、分库分表同步至目标单表及整库同步至目标单表三种同步方式,不同的同步方式支持的数据源有所不同:
- 单表同步:适用于数据入湖和数据上云场景下,表或文件级别的数据同步,支持的数据源请参见单表支持的数据源类型。
- 分库分表同步:适用于数据入湖和数据上云场景下,多库多表同步场景,支持的数据源请参见分库分表同步支持的数据源类型。
- 整库迁移:适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景,支持的数据源请参见整库同步支持的数据源类型。
因各版本集群支持的数据源有所差异,其他版本支持的数据源仅做参考。
单表支持的数据源类型
组合示例:FTP-Hudi,如果数据源FTP支持单表读取,同时数据源Hudi支持单表写入,则用户可以配置一条从FTP到 Hudi 的同步任务(即FTP-Hudi),以实现将FTP上的文件数据同步写入到Hudi表中。
此类跨源组合的可行性仅取决于两端数据源是否分别具备读取与写入的能力,而无需限定为同一类数据源或特定组合。
|
数据源 |
单表读 |
单表写 |
说明 |
|---|---|---|---|
|
DWS |
√ |
√ |
不支持DWS物理机纳管模式。 |
|
DLI |
√ |
√ |
不支持DWS物理机纳管模式。 |
|
MRS Hive |
√ |
√ |
暂不支持2.x版本,建议使用的版本:
|
|
MRS Hudi |
√ |
√ |
暂不支持2.x版本,建议使用的版本:
|
|
Doris |
√ |
√ |
- |
|
MRS ClickHouse |
√ |
√ |
建议使用的版本:21.3.4.X。 |
|
Open ClickHouse |
√ |
√ |
建议使用的版本:21.3.4.X。 |
|
MRS HBase |
√ |
√ |
MRS HBase建议使用的版本:
|
|
OBS |
√ |
√ |
- |
|
FTP |
√ |
x |
- |
|
SFTP |
√ |
x |
- |
|
RDS(MySQL) |
√ |
√ |
创建数据连接时也支持用户使用自建的数据库,如MySQL在选择界面对应的RDS(MySQL)即可。 |
|
RDS(PostgreSQL) |
√ |
√ |
创建数据连接时也支持用户使用自建的数据库,如PostgreSQL在选择界面对应的RDS(PostgreSQL)即可。 |
|
RDS(SQL Server) |
√ |
√ |
创建数据连接时也支持用户使用自建的数据库,如SQL Server在选择界面对应的RDS(SQL Server)即可。 |
|
Oracle |
√ |
√ |
- |
|
RDS(SAP HANA) |
√ |
√ |
仅支持2.00.050.00.1592305219版本。 |
|
GBASE8A |
√ |
√ |
- |
|
RDS(达梦数据库DM) |
x |
x |
创建数据连接时也支持用户使用自建的数据库,如达梦数据库DM在选择界面对应的RDS(达梦数据库DM)即可。 |
|
MongoDB |
√ |
√ |
|
|
Redis |
√ |
√ |
- |
|
Apache HDFS |
√ |
√ |
|
|
DMS Kafka |
√ |
√ |
- |
|
LTS |
√ |
x |
- |
|
Apache RocketMq |
x |
√ |
- |
|
Elasticsearch |
√ |
√ |
- |
|
Rest Client |
√ |
x |
- |
|
OpenGauss(GaussDB) |
√ |
√ |
- |
分库分表同步支持的数据源类型
分库分表同步适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于多库多表同步场景。
支持分库分表同步的数据源如下所示:
源端为RDS(MySQL)时支持分库分表同步。
整库同步支持的数据源类型
整库同步适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于数据库离线同步场景,不适用于在线实时同步。
- 读取能力:DWS、RDS(MySQL)、RDS(PostgreSQL)
- 写入能力:DWS、DLI
各数据源支持的能力说明
|
数据源 |
读取能力 |
字段映射 |
写入能力 |
任务配置 |
||||
|---|---|---|---|---|---|---|---|---|
|
类型 |
数据源 |
分片 |
自定义字段 |
数据源调优参数 |
字段批量映射 |
字段映射样例 |
数据源调优参数 |
脏数据 |
|
关系型数据库 |
MySQL |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
PostgreSQL |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
SQL Server |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
Oracle |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
DWS |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
SAP HANA |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
Gbase8A |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
达梦数据库 DM |
× |
× |
× |
× |
× |
× |
× |
|
|
神通(ST) |
× |
× |
× |
× |
× |
× |
× |
|
|
Hadoop |
MRS Hive |
√ |
× |
√ |
√ |
√ |
√ |
× |
|
MRS Hudi |
√ |
× |
√ |
√ |
× |
√ |
× |
|
|
MRS HBase |
√ |
√ |
√ |
√ |
× |
√ |
√ |
|
|
HDFS |
√ |
√ |
√ |
× |
× |
× |
× |
|
|
对象存储 |
OBS |
√ |
× |
× |
× |
× |
× |
× |
|
数据仓库 |
DLI |
√ |
√ |
× |
√ |
√ |
× |
× |
|
RedShift |
× |
× |
× |
× |
× |
× |
× |
|
|
YASHAN |
× |
× |
× |
× |
× |
× |
× |
|
|
Doris |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
MRS ClickHouse |
× |
√ |
√ |
√ |
√ |
√ |
√ |
|
|
非关系型数据库 |
MongoDB |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
消息系统 |
DMS Kafka |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
|
MRS Kafka |
× |
× |
× |
× |
× |
× |
× |
|
|
Apache Kafka |
× |
× |
× |
× |
× |
× |
× |
|
|
LTS |
√ |
- |
- |
- |
- |
- |
- |
|
|
RocketMQ |
× |
× |
× |
√ |
√ |
× |
√ |
|
|
DIS |
× |
× |
× |
× |
× |
× |
× |
|
|
LogHub(SLS) |
× |
× |
× |
× |
× |
× |
× |
|
|
搜索 |
Elasticsearch |
× |
√ |
√ |
× |
√ |
√ |
√ |
|
文件 |
FTP |
√ |
√ |
√ |
× |
× |
× |
× |
|
SFTP |
√ |
√ |
√ |
× |
× |
× |
× |
|
|
API |
Rest-API |
√ |
× |
√ |
√ |
× |
× |
× |
|
其他 |
GaussDB |
× |
× |
× |
× |
× |
× |
× |