文档首页/ 数据仓库服务 DWS/ 更多文档/ 开发指南（阿布扎比区域）/ DWS数据迁移/ 导入数据/ 从OBS并行导入数据/ 关于OBS并行导入

更新时间：2025-10-11 GMT+08:00

查看PDF

关于OBS并行导入

对象存储服务OBS（Object Storage Service）是云上提供的一个基于对象的海量存储服务，为客户提供安全、高可靠、低成本的数据存储能力。OBS为用户提供了超大存储容量的能力，适合存放任意类型的文件。

数据仓库服务DWS使用OBS作为集群数据与外部数据互相转化的平台，实现安全、高可靠和低成本的存储需求。

DWS支持将OBS上TXT、CSV、ORC、PARQUET、CARBONDATA以及JSON格式的数据导入到集群进行查询，也支持远程读OBS上的数据。因此对于经常查询的热数据建议直接导入DWS后再做查询。偶尔查询的冷数据可以存储在OBS上直接远程读以节省成本。

目前，导入数据有两种方式：

方式一：无需用户创建server，使用默认server创建外表，支持TXT、CSV格式的数据，参见从OBS导入CSV、TXT数据。
方式二：需用户创建server，使用该server创建外表，支持ORC、CARBONDATA、TXT、CSV、PARQUET以及JSON格式的数据，参见从OBS导入ORC、CARBONDATA、PARQUET和JSON数据。

OBS导入导出数据时，不支持中文路径。
OBS导入导出数据时，暂不支持跨Region进行OBS数据导入导出，必须确保OBS和DWS集群在同一个Region中。
在执行OBS导入导出时，为了确保数据导入或导出的正确性，需要在相同的兼容模式下操作。
例如：在MySQL兼容模式下导入（导出）的数据，同样需要在MySQL兼容模式下才能正确导出（导入）。

概述

在数据迁移、ETL（Extract-Transform-Load）过程中，需要向DWS并行导入海量数据，使用普通方式会耗费大量的时间。DWS提供了OBS（Object Storage Service）及外表接口，通过OBS外表设置的导入URL路径、导入数据格式等信息来识别数据源文件，利用多DN（Datanode）并行的方式，实现了数据的快速并行导入。

优势：

CN只负责任务的规划及下发，把数据导入的工作交给了DN，释放了CN的资源，使其有能力处理外部请求。
通过让各个DN都参与数据导入，充分利用各个设备的计算能力及网络带宽。
支持导入过程中对数据做预处理。
支持在导入过程中，针对数据格式错误设置导入容错性，并可在导入结束后根据错误信息定位错误数据。

劣势：

需要创建OBS外表，并且要在OBS服务器上存放导入数据。

适用场景：

高并发、大数据量导入。

导入数据原理

OBS导入原理如图1所示，CN负责任务的规划及下发，它是按文件给每个DN节点分配任务的。

分配算法如下：

例如，图1中，总共有4个节点DN0~DN3， OBS上有6个文件t1.data.0~t1.data.5，那么分配方式如下：

t1.data.0 -> DN0

t1.data.1 -> DN1

t1.data.2 -> DN2

t1.data.3 -> DN3

t1.data.4 -> DN0

t1.data.5 -> DN1

其中DN0和DN1上分配了两个文件，其他DN分配了1个文件。

如果OBS上文件大小都相同时，OBS上的文件数与DN节点数的比例为1:1时导入性能为最好，因为每个DN分配的任务都相同。因此建议将数据文件存储到OBS前，尽可能均匀地将文件切分成多个，文件的数量以DN的整数倍更适合。

图1 通过OBS外表并行导入数据
点击放大

导入流程图

图2 并行导入流程

表1 流程说明
流程	说明	子任务
上传数据至OBS	在OBS服务器上规划存储路径，并上传数据文件。详细请参见上传数据到OBS。	-
创建OBS外表	创建外表用于识别OBS服务器上的数据源文件。在OBS外表中保存了数据源在OBS服务器上的桶名、对象名、文件格式、存放位置、编码格式、数据间的分隔符等信息。详细请参见创建OBS外表。	-
执行导入数据	在创建好外表后，通过INSERT语句，将数据快速、高效地导入到目标表中。详细请参见执行导入数据。	-
处理错误表	在数据并行导入发生错误时，请根据错误信息，处理导入错误，以保证导入数据的完整性。	-
优化查询效率	导入数据后，通过ANALYZE语句生成表统计信息。ANALYZE语句会将统计结果自动存储在系统表PG_STATISTIC中。执行计划生成器会使用这些统计数据，以生成最有效的查询执行计划。	-

父主题：从OBS并行导入数据

上一篇：从OBS并行导入数据

下一篇：从OBS导入CSV、TXT数据

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

关于OBS并行导入

概述

相关概念

导入数据原理

导入流程图

意见反馈

文档内容是否对您有帮助？