更新时间:2022-06-13 GMT+08:00
导出ORC数据概述
GaussDB(DWS)数据库支持通过HDFS外表导出ORC格式数据至MRS,通过外表设置的导出模式、导出数据格式等信息来指定导出的数据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。
- CN只负责任务的规划及下发,把数据导出的工作交给了DN,释放了CN的资源,使其有能力处理外部请求。
- 通过让各个DN都参与数据导出,充分利用各个设备的计算能力及网络带宽。
- 支持多个hdfs server并发导出,导出的路径可以为空,命名规则需与导出文件一致。
- 选择MRS服务与集群节点处于联网状态,导出速率会受网络带宽影响。
- 支持数据文件格式:ORC。
导出文件命名规则
GaussDB(DWS)导出ORC数据的文件命名规则如下:
- 导出至MRS(HDFS):从DN节点导出数据时,以segment的格式存储在HDFS中,文件命名规则为“mpp_数据库名_模式名_表名称_节点名称_n.orc”。这里的“n”是从0开始按照自然数0、1、2、3递增。
- 对于来自不同集群或不同数据库的数据,建议用户可以将数据导出到不同路径下。ORC格式文件大小最大为128M,Stripe大小最大为64M。
- 导出完成后会生成_SUCCESS标记文件。
父主题: 导出ORC数据到MRS