Flink on Paimon最佳实践

概述

Apache Paimon是一个流式数据湖存储技术，它提供高吞吐、低延迟的数据摄入、流式订阅和实时查询。采用开放的ORC、Parquet、Avro文件格式，与Flink、Spark等计算引擎兼容。

前提条件

完成Hadoop部署并对接OBS，详情参考Hadoop对接OBS。
已部署Flink，并集成Paimon到Flink中，详情参考Flink官方文档。

Flink对接OBS

下载flink-obs。
使用mvn构建flink对应版本的flink-obs-fs-hadoop-xxx.jar。
创建${FLINK_HOME}/plugins/obs-fs-hadoop目录。
复制2中构建的flink-obs-fs-hadoop-xxx.jar到${FLINK_HOME}/plugins/obs-fs-hadoop目录。

配置环境变量，命令如下：

export HADOOP_CLASSPATH=$(hadoop classpath)

在Flink的配置文件中配置OBSA参数：flink-conf.yaml(1.19之前)，config.yaml(1.19及以后)

fs.obs.impl: org.apache.hadoop.fs.obs.OBSFileSystem
fs.obs.access.key: xxx
fs.obs.secret.key: xxx
fs.obs.endpoint: obs.xxx.myhuaweicloud.com
fs.obs.buffer.dir: /opt/data/obsa_buffer

配置Paimon对接OBS

创建Paimon Catalog，warehouse路径指定为OBS桶中目录，例如指定为jtc-pfs001桶中的flink/paimon101目录：
```
CREATE CATALOG paimon101_catlog WITH (
    'type'='paimon',
    'warehouse'='obs://jtc-pfs001/flink/paimon101'
);
```
创建数据库，指定catalog创建或使用use catalog catalog_name指定catalog。
```
use catalog paimon101_catlog;
create paimon_db;
create paimon101_catlog.paimon_db;
```

父主题： 对接大数据组件

上一篇：Spark on Paimon最佳实践

下一篇：Flink使用Hive connector对接OBS指导

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问