更新时间:2025-07-29 GMT+08:00
数据转Parquet格式并导出至OBS设置
操作场景
GeminiDB Influx集群增强版支持将用户新写入的数据转为parquet文件格式,并自动上传到指定的OBS桶。用户可以访问OBS上的parquet文件或者下载后使用。
使用须知
- 如需使用数据导出设置功能,您可以在管理控制台右上角,选择 “工单 > 新建工单” 进行咨询。
- 该功能支持按表粒度转为parquet格式,默认所有表的数据都会转。如需指定表转化,您可以在管理控制台右上角,选择 “工单 > 新建工单” ”进行咨询。
- 该功能仅支持经典部署模式的集群增强版的GeminiDB Influx实例。
- 使用该功能,需将数据导出按钮打开。
- OBS桶类型支持并行文件系统、标准桶。
- 该功能支持指定目标文件夹,且目标文件夹必须提前创好,不能不存在。
- 使用该功能,会在OBS上创建一个名为data-dump-access的策略,该策略只提供PUT权限,且只针对选择的文件夹。
- 该功能需将retention policy中shard duration设置为1天,不支持非1天的shard duration设置。
- 该功能实现的parquet文件格式转换是异步任务,其时效性依赖于当时系统的并发、负载等多个因素,不保证实时性。
- 该功能将转换好的parquet文件周期性的上传,上传时间为每隔2小时的整点上传,例如2:00开始上传。
- 该功能不支持历史数据转换为parquet文件并导出OBS。
操作步骤
- 登录管理控制台。
- 在服务列表中选择“数据库 > 云数据库 GeminiDB”。
- 在“实例管理”页面,选择目标实例,单击操作列 。
图1 数据导出设置
您也可以单击实例名称,进入基本信息页面,在“数据导出设置”。
处单击图2 数据导出设置 - 进入数据导出设置页面后,单击“数据导出”按钮。
图3 数据导出
- “资源类型”根据自身资源选择“并行文件系统”或者“桶列表”,且选择对应的“文件系统名”或者“OBS桶名”。
- 单击“选择文件夹”。
图4 选择文件夹
- 单击“确定”。