关于OBS并行导出

概述

DWS数据库支持通过OBS外表并行导出数据：通过OBS外表设置的导出模式、导出数据格式等信息来指定导出的数据文件，利用多DN并行的方式，将数据从DWS数据库导出到外部，存放在OBS对象存储服务器上，从而提高整体导出性能。

CN只负责任务的规划及下发，数据导出工作由DN负责，并释放CN资源，使其有能力处理外部请求。
每个DN都参与数据导出，使各个设备的计算能力及网络带宽得到充分利用。
支持多个OBS服务并发导出，导出的桶和对象的路径必须不同并且不能为空。
选择OBS服务器与集群节点处于联网状态，导出速率会受网络带宽影响。
支持数据文件格式：TEXT、CSV、ORC、PARQUET。单行数据大小需<1GB。
在执行OBS导入导出时，为了确保数据导入或导出的正确性，需要在相同的兼容模式下操作。
例如：在mysql兼容模式下导入（导出）的数据，同样需要在mysql兼容模式下才能正确导出（导入）。

目前，导出数据有两种方式：

方式一：无需用户创建server，使用默认server创建外表，支持TXT、CSV格式的数据，参见导出CSV、TXT数据到OBS。
方式二：需用户创建server，使用该server创建外表，支持ORC、PARQUET格式的数据，参见导出ORC和PARQUET数据到OBS。其中PARQUET格式的数据仅9.1.0及以上版本支持。

OBS导入导出数据时，不支持中文路径。
OBS导入导出数据时，暂不支持跨Region进行OBS数据导入导出，必须确保OBS和DWS集群在同一个Region中。
在执行OBS导入导出时，为了确保数据导入或导出的正确性，需要在相同的兼容模式下操作。
例如：在MySQL兼容模式下导入（导出）的数据，同样需要在MySQL兼容模式下才能正确导出（导入）。

导出文件的命名规则

DWS向OBS导出数据的文件命名规则如下：

从DN节点导出数据时，以segment的格式存储在OBS服务中，文件命名规则为“表名称_节点名称_segment.n”。这里的“n”是从0开始按照自然数0、1、2、3递增。
例如，表t1在datanode3里面的数据导出成文件“t1_datanode3_segment.0”、“t1_datanode3_segment.1”等等，以此类推。

对于来自不同集群或不同数据库的数据，建议用户可以将数据导出到不同的OBS桶或者同一个OBS桶的不同路径下。
每个segment可以存储的最大数据为1GB，并且不能切断元组。如果segment超过1GB，超过1GB的数据会作为第二个segment进行存储。
例如：

datanode3节点将表（t1）导出到OBS时，一个segment里面已经存储了100条元组，大小是1023MB，如果再插入一条5MB的元组，大小就变成1028MB了，此时会以1023MB生成一个“t1_datanode3_segment.0”保存到OBS服务中，新插入的第101条元组作为下一个“t1_datanode3_segment.1”保存到OBS服务中。
导出Hash分布表时，每个DataNode节点生成的segment数量和集群的DataNode节点数无关，而是取决于每个DataNode节点上存储的数据量。按照Hash方式存储在各个DataNode节点上的数据分布不一定均匀。
例如，一个有6个DataNode节点的集群，DataNode1到DataNode6分别有1.5GB、0.7GB、0.6GB、0.8GB、0.4GB、0.5GB的数据，则导出时会生成7个OBS segment文件，其中DataNode1会生成1GB和0.5GB两个segment文件。

导出流程

图2 并行导出流程

表1 流程说明
流程	说明	子任务
规划导出数据	创建OBS桶，并在桶中创建导出后的数据文件的存放目录。详细请参见规划导出数据。	-
创建OBS外表。	创建外表用于帮助OBS指定的待导出数据文件。外表中保存了数据源文件导出后的位置、文件格式、编码格式、数据间的分隔符等信息。详细内容请参见创建OBS外表。	-
执行导出数据。	在创建好外表后，通过INSERT语句，将数据快速、高效地导出到数据文件中。详细内容请参见执行导出。	-

父主题： 导出数据到OBS

上一篇：导出数据到OBS

下一篇：导出CSV、TXT数据到OBS

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

关于OBS并行导出

概述

相关概念

相关原理

导出文件的命名规则

导出流程

相关文档

意见反馈

文档内容是否对您有帮助？