文档首页/ 数据治理中心 DataArts Studio/ 用户指南/ 数据集成（离线作业）/ 支持的数据源/ Apache HDFS数据源

更新时间：2025-11-27 GMT+08:00

查看PDF

Apache HDFS数据源

本数据集成服务支持开源Apache HDFS数据源，提供高效便捷的数据迁移服务。

使用前准备及限制

网络要求
Apache HDFS数据源必须与CDM网络进行通讯，以确保数据传输的顺畅性。详情请参见网络打通。

访问端口放通：同 Hadoop 版本默认值略有差异，可按实际配置项修改后的值开放。

表1 各服务端口说明
服务	端口类型	端口号	用途
HDFS	TCP	8020	HDFS 2.x NameNode服务端口。
		9820	HDFS 3.x NameNode服务端口。
		9866	HDFS DataNode服务端口。

支持的迁移场景

数据集成离线同步支持以下三种同步方式，以满足不同数据迁移场景的需求：

单表同步
适用于数据入湖和数据上云场景下，表或文件级别的数据同步。支持的数据源类型请参考单表支持的数据源类型。
分库分表同步
适用于数据入湖和数据上云场景下，多库多表同步场景。支持的数据源类型请参考分库分表同步支持的数据源类型。
整库迁移
适用于数据入湖和数据上云场景下，离线或自建数据库整体同步场景。支持的数据源类型请参考整库同步支持的数据源类型。

需要注意的是，分库分表与整库迁移能力会根据不同region的上线支持情况有所不同，具体支持情况以页面为准。以下是针对Apache HDFS的支持迁移场景概览：

支持迁移场景	单表读取	单表写入	分库分表读取	分库分表写入	整库读取	整库写入
是否支持	√	√	x	√	x	x

核心能力速览

连接配置

配置项	支持情况	说明
认证方式	SIMPLE、KERBROS	通过SIMPLIE/KERBROS认证方式访问Apache-HDFS集群。

读取能力

配置项	支持情况	说明
增量读取	√	支持配置【变量路径】 + 【调度】方式，实现按时间或文件变化触发增量同步。
支持文件格式	二进制 CSV PARQUET	支持原始二进制文件读取，适用于源目的端均为文件系统的搬迁。支持标准 CSV 格式，支持识别分隔符、编码方式。支持列式存储格式 Parquet，支持原生的Parquet文件读取能力。
分片并发	√	支持按文件进行多并发读取，多线程并行抽取，显著提升吞吐效率。
脏数据处理	√	支持异常数据写入脏数据桶，避免因少量异常数据导致作业失败。
自定义字段	√	可在任务级追加计算列、常量列或脱敏函数，满足个性化业务需求。

写入能力

配置项	支持情况	说明
支持文件格式	二进制 CSV	支持原始二进制文件写入，适用于源目的端均为文件系统的搬迁。支持标准 CSV 格式，支持识别分隔符、编码方式。
并发写入	√	支持并发写入，提升写入效率。
脏数据处理	x	支持异常数据写入脏数据桶，避免因少量异常数据导致作业失败，暂不支持。

配置项

支持情况

说明

支持文件格式

二进制

CSV

支持原始二进制文件写入，适用于源目的端均为文件系统的搬迁。

支持标准 CSV 格式，支持识别分隔符、编码方式。

并发写入

√

支持并发写入，提升写入效率。

脏数据处理

支持异常数据写入脏数据桶，避免因少量异常数据导致作业失败，暂不支持。

创建数据源

在DataArts Studio管理中心新建相应的数据源，详情请参见创建DataArts Studio数据连接。

创建数据集成离线作业

在DataArts Studio数据开发中新建Apache HDFS集成作业，详情请参见新建离线处理集成作业。

父主题： 支持的数据源

上一篇：DataArts Fabric SQL数据源（内测中）

下一篇：Apache-Hive数据源

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问