更新时间:2025-03-26 GMT+08:00

导出ORC和PARQUET数据概述

GaussDB(DWS)数据库支持通过HDFS外表导出ORC和PARQUET格式数据至MRS,通过外表设置的导出模式、导出数据格式等信息来指定导出的数据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。
  • CN只负责任务的规划及下发,数据导出工作由DN负责,并释放CN资源,使其有能力处理外部请求。
  • 每个DN都参与数据导出,使各个设备的计算能力及网络带宽得到充分利用。
  • 支持多个hdfs server并发导出,导出的路径可以为空,命名规则需与导出文件一致。
  • 选择MRS服务与集群节点处于联网状态,导出速率会受网络带宽影响。
  • 支持数据文件格式:ORC、PARQUET。

本小节以导出ORC格式为例,PARQUET数据的导出方法与ORC格式相似。9.1.0及以上集群版本支持导出PARQUET数据。

导出文件命名规则

GaussDB(DWS)导出ORC和PARQUET数据的文件命名规则如下:

  1. 导出至MRS(HDFS):从DN节点导出数据时,以segment的格式存储在HDFS中,文件命名规则为“mpp_数据库名_模式名_表名称_节点名称_n_UUID.数据格式名”。这里的“n”是从0开始按照自然数0、1、2、3递增。这里的“UUID”是标准型式的UUID,由32个16进制字符组成,以连字号分为五段,形式为8-4-4-4-12共32个字符。
  2. 对于来自不同集群或不同数据库的数据,建议用户可以将数据导出到不同路径下。ORC和PARQUET格式单文件大小最大为256M左右(此处为软约束,实际业务可能会超出一点)。
  3. 导出完成后会生成_SUCCESS标记文件。