Apache HDFS数据源
本数据集成服务支持开源Apache HDFS数据源,提供高效便捷的数据迁移服务。
使用前准备及限制
- 网络要求
Apache HDFS数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通。
- 访问端口放通:同 Hadoop 版本默认值略有差异,可按实际配置项修改后的值开放。
表1 各服务端口说明 服务
端口类型
端口号
用途
HDFS
TCP
8020
HDFS 2.x NameNode服务端口。
9820
HDFS 3.x NameNode服务端口。
9866
HDFS DataNode服务端口。
支持的迁移场景
数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:
- 单表同步
适用于数据入湖和数据上云场景下,表或文件级别的数据同步。支持的数据源类型请参考单表支持的数据源类型。
- 分库分表同步
适用于数据入湖和数据上云场景下,多库多表同步场景。支持的数据源类型请参考分库分表同步支持的数据源类型。
- 整库迁移
适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景。支持的数据源类型请参考整库同步支持的数据源类型。
需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对Apache HDFS的支持迁移场景概览:
|
支持迁移场景 |
单表读取 |
单表写入 |
分库分表读取 |
分库分表写入 |
整库读取 |
整库写入 |
|---|---|---|---|---|---|---|
|
是否支持 |
√ |
√ |
x |
√ |
x |
x |
核心能力速览
- 连接配置
配置项
支持情况
说明
认证方式
SIMPLE、KERBROS
通过SIMPLIE/KERBROS认证方式访问Apache-HDFS集群。
- 读取能力
配置项
支持情况
说明
增量读取
√
支持配置【变量路径】 + 【调度】方式,实现按时间或文件变化触发增量同步。
支持文件格式
二进制
CSV
PARQUET
支持原始二进制文件读取,适用于源目的端均为文件系统的搬迁。
支持标准 CSV 格式,支持识别分隔符、编码方式。
支持列式存储格式 Parquet,支持原生的Parquet文件读取能力。
分片并发
√
支持按文件进行多并发读取,多线程并行抽取,显著提升吞吐效率。
脏数据处理
√
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。
自定义字段
√
可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需求。
- 写入能力
配置项
支持情况
说明
支持文件格式
二进制
CSV
支持原始二进制文件写入,适用于源目的端均为文件系统的搬迁。
支持标准 CSV 格式,支持识别分隔符、编码方式。
并发写入
√
支持并发写入,提升写入效率。
脏数据处理
x
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败,暂不支持。
创建数据源
在DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接。
创建数据集成离线作业
在DataArts Studio数据开发中新建Apache HDFS集成作业,详情请参见新建离线处理集成作业。