更新时间:2022-06-13 GMT+08:00

迁移数据到GaussDB(DWS)

GaussDB(DWS)提供了灵活的数据入库方式,可以将多种数据源的数据导入到GaussDB(DWS)中。各导入方式具有不同的特点,如表1所示,用户可以根据其特点自行选择。建议用户配合云数据迁移(Cloud Data Migration,简称CDM)和数据湖工厂(Data Lake Factory,简称DLF)一起使用,CDM用于批量数据迁移,DLF可以对整个ETL过程进行编排调度,同时提供可视化的开发环境。

  • DRS、CDM、OBS、MRS为华为云服务。
  • GDS、DSC、gs_restore为内部工具。
表1 数据迁移方式说明

数据导入方式

支持的数据源/数据库

说明

优势

从OBS并行导入数据

TEXT/CSV/ORC及CARBONDATA数据文件格式

支持将存储在OBS上的TEXT、CSV、ORC及CARBONDATA格式的数据并行导入到GaussDB(DWS),支持导入后查询数据,也支持远程读OBS上的数据。

GaussDB(DWS)优先推荐的导入方式。

并行拉取方式,性能好,横向扩展。

使用GDS从远端服务器导入数据

CSV/TEXT数据文件格式

使用GaussDB(DWS)提供的GDS工具,利用多DN并行的方式,将数据从远端服务器导入到GaussDB(DWS)。这种方式导入效率高,适用于大批量数据入库。

从MRS导入数据到集群

  • Hive
  • Spark

配置一个GaussDB(DWS)集群连接到一个MRS集群,然后将数据从MRS的HDFS中读取到GaussDB(DWS)

并行拉取方式,性能好,横向扩展。

使用CDM迁移数据到GaussDB(DWS)

  • MySQL
  • PostgreSQL
  • Microsoft SQL Server
  • Oracle
  • IBM Db2
  • SAP HANA
  • DWS
  • Hive

CDM提供同构/异构数据源之间批量数据迁移的功能,帮助您实现从多种类型的数据源迁移数据到GaussDB(DWS)。CDM在迁移数据到GaussDB(DWS)时,采用的是Copy方式和GDS并行导入方式。

数据源丰富,操作简单。

第三方ETL工具

数据库、NoSQL、文件系统、大数据平台

请参考第三方ETL工具的相关文档。

GaussDB(DWS)提供了DSC工具,可以将Teradata/Oracle脚本迁移到GaussDB(DWS)

使用DSC工具迁移SQL脚本

通过OBS中转,数据源丰富,数据转换能力强。

从GaussDB(DWS)集群导入数据到新集群

-

支持两个GaussDB(DWS)集群之间的数据互访互通。通过Foreign Table方式实现跨DWS集群的数据访问和导入。

适用于多套DWS集群之间的数据同步。

使用COPY FROM STDIN导入数据

其他文件或数据库

使用Java语言开发应用程序时,通过调用JDBC驱动的CopyManager接口,从文件或其他数据库向GaussDB(DWS)写入数据。

从其他数据库直接写入GaussDB(DWS)的方式,具有业务数据无需落地成文件的优势。

使用gsql元命令导入数据

本地文件

与直接使用SQL语句COPY不同,该命令读取/写入的文件只能是gsql客户端所在机器上的本地文件。

操作简单,适用于小批量数据入库。

使用gs_restore命令导入数据

sql/tmp/tar文件格式

在数据库迁移场景下,支持使用gs_restore工具将事先使用gs_dump工具导出的文件格式,重新导入GaussDB(DWS)集群,实现表定义、数据库对象定义等元数据的导入。导入数据主要包括以下内容:

  • 所有数据库对象定义。
  • 单个数据库对象定义。
  • 单个shema定义。
  • 单张表定义。

适用于元数据迁移。