文档首页/ 云数据库 GeminiDB/ GeminiDB Influx接口/ 用户指南/ 数据转Parquet格式并导出至OBS设置
更新时间:2025-07-29 GMT+08:00

数据转Parquet格式并导出至OBS设置

操作场景

GeminiDB Influx集群增强版支持将用户新写入的数据转为parquet文件格式,并自动上传到指定的OBS桶。用户可以访问OBS上的parquet文件或者下载后使用。

使用须知

  • 如需使用数据导出设置功能,您可以在管理控制台右上角,选择 “工单 > 新建工单” 进行咨询。
  • 该功能支持按表粒度转为parquet格式,默认所有表的数据都会转。如需指定表转化,您可以在管理控制台右上角,选择 “工单 > 新建工单” ”进行咨询。
  • 该功能仅支持经典部署模式的集群增强版的GeminiDB Influx实例。
  • 使用该功能,需将数据导出按钮打开。
  • OBS桶类型支持并行文件系统、标准桶。
  • 该功能支持指定目标文件夹,且目标文件夹必须提前创好,不能不存在。
  • 使用该功能,会在OBS上创建一个名为data-dump-access的策略,该策略只提供PUT权限,且只针对选择的文件夹。
  • 该功能需将retention policy中shard duration设置为1天,不支持非1天的shard duration设置。
  • 该功能实现的parquet文件格式转换是异步任务,其时效性依赖于当时系统的并发、负载等多个因素,不保证实时性。
  • 该功能将转换好的parquet文件周期性的上传,上传时间为每隔2小时的整点上传,例如2:00开始上传。
  • 该功能不支持历史数据转换为parquet文件并导出OBS。

操作步骤

  1. 登录管理控制台
  2. 在服务列表中选择“数据库 > 云数据库 GeminiDB”。
  3. “实例管理”页面,选择目标实例,单击操作列更多 > 数据导出设置

    图1 数据导出设置

    您也可以单击实例名称,进入基本信息页面,在数据库信息 > 桶配置处单击“数据导出设置”

    图2 数据导出设置

  4. 进入数据导出设置页面后,单击“数据导出”按钮。

    图3 数据导出

  5. “资源类型”根据自身资源选择“并行文件系统”或者“桶列表”,且选择对应的“文件系统名”或者“OBS桶名”。
  6. 单击“选择文件夹”。

    图4 选择文件夹

  7. 单击“确定”。