更新时间:2024-10-17 GMT+08:00

迁移HDFS数据至OBS

操作场景

在华为云大数据存算分离方案中,对象存储服务OBS作为统一数据湖存储数据。如果用户数据仍存储在本地HDFS中,则需要先将HDFS的数据迁移至OBS。

用户可以使用以下迁移方案中的任意一种完成数据迁移,包括:Distcp方式迁移CDM方式迁移OMS方式迁移

Distcp方式迁移

Hadoop Distcp(Distributed copy)主要是用于Hadoop文件系统内部或之间进行大规模数据复制的工具,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。

配置指南

参考Hadoop对接OBS中hadoop-huaweicloud的安装和配置方法,完成OBS相关配置。

使用示例

  1. 以迁移HDFS上的“/data/sample”目录为例,执行以下命令查看HDFS文件系统上此目录下的文件与目录。

    hadoop fs -ls hdfs:///data/sample

  2. 执行以下命令,将HDFS文件系统上“/data/sample”目录下所有文件与目录迁移到OBS桶“obs-bigdata-posix-bucket”的“data/sample”目录下。

    hadoop distcp hdfs:///data/sample obs://obs-bigdata-posix-bucket/data/sample

  3. 执行以下命令,查看拷贝的文件。

    hadoop fs -ls obs://obs-bigdata-posix-bucket/data/sample

CDM方式迁移

云数据迁移(Cloud Data Migration,CDM)提供同构/异构数据源之间批量数据迁移服务,帮助您实现数据自由流动。支持关系数据库,数据仓库,NoSQL,大数据云服务等数据源。

详细内容请参见云数据迁移

OMS方式迁移

对象存储迁移服务(Object Storage Migration Service,OMS)是一种线上数据迁移服务,帮助您将其他云服务商对象存储服务中的数据在线迁移至华为云的对象存储服务(Object Storage Service,OBS)中。

详细内容请参见对象存储迁移服务