更新时间:2024-03-06 GMT+08:00
分享

导出ORC数据概述

GaussDB(DWS)数据库支持通过HDFS外表导出ORC格式数据至MRS,通过外表设置的导出模式、导出数据格式等信息来指定导出的数据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。
  • CN只负责任务的规划及下发,数据导出工作由DN负责,并释放CN资源,使其有能力处理外部请求。
  • 每个DN都参与数据导出,使各个设备的计算能力及网络带宽得到充分利用。
  • 支持多个hdfs server并发导出,导出的路径可以为空,命名规则需与导出文件一致。
  • 选择MRS服务与集群节点处于联网状态,导出速率会受网络带宽影响。
  • 支持数据文件格式:ORC。

导出文件命名规则

GaussDB(DWS)导出ORC数据的文件命名规则如下:

  1. 导出至MRS(HDFS):从DN节点导出数据时,以segment的格式存储在HDFS中,文件命名规则为“mpp_数据库名_模式名_表名称_节点名称_n.orc”。这里的“n”是从0开始按照自然数0、1、2、3递增。
  2. 对于来自不同集群或不同数据库的数据,建议用户可以将数据导出到不同路径下。ORC格式文件大小最大为128M,Stripe大小最大为64M。
  3. 导出完成后会生成_SUCCESS标记文件。

相关文档