更新时间:2025-11-27 GMT+08:00
分享

Apache HDFS数据源

本数据集成服务支持开源Apache HDFS数据源,提供高效便捷的数据迁移服务。

使用前准备及限制

  • 网络要求

    Apache HDFS数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通

  • 访问端口放通:同 Hadoop 版本默认值略有差异,可按实际配置项修改后的值开放。
    表1 各服务端口说明

    服务

    端口类型

    端口号

    用途

    HDFS

    TCP

    8020

    HDFS 2.x NameNode服务端口。

    9820

    HDFS 3.x NameNode服务端口。

    9866

    HDFS DataNode服务端口。

支持的迁移场景

数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:

需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对Apache HDFS的支持迁移场景概览:

支持迁移场景

单表读取

单表写入

分库分表读取

分库分表写入

整库读取

整库写入

是否支持

x

x

x

核心能力速览

  • 连接配置

    配置项

    支持情况

    说明

    认证方式

    SIMPLE、KERBROS

    通过SIMPLIE/KERBROS认证方式访问Apache-HDFS集群。

  • 读取能力

    配置项

    支持情况

    说明

    增量读取

    支持配置【变量路径】 + 【调度】方式,实现按时间或文件变化触发增量同步。

    支持文件格式

    二进制

    CSV

    PARQUET

    支持原始二进制文件读取,适用于源目的端均为文件系统的搬迁。

    支持标准 CSV 格式,支持识别分隔符、编码方式。

    支持列式存储格式 Parquet,支持原生的Parquet文件读取能力。

    分片并发

    支持按文件进行多并发读取,多线程并行抽取,显著提升吞吐效率。

    脏数据处理

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。

    自定义字段

    可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需求。

  • 写入能力

    配置项

    支持情况

    说明

    支持文件格式

    二进制

    CSV

    支持原始二进制文件写入,适用于源目的端均为文件系统的搬迁。

    支持标准 CSV 格式,支持识别分隔符、编码方式。

    并发写入

    支持并发写入,提升写入效率。

    脏数据处理

    x

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败,暂不支持。

创建数据源

DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接

创建数据集成离线作业

DataArts Studio数据开发中新建Apache HDFS集成作业,详情请参见新建离线处理集成作业

相关文档