使用CDL从Hudi同步数据到ClickHouse
操作场景
本章节指导用户通过MRS 3.2.0版本开启Kerberos认证的集群的CDLService WebUI界面,从Hudi导入数据到ClickHouse。
前提条件
- 集群已安装CDL、Hudi和ClickHouse服务且运行正常。
- 用户需要有操作ClickHouse的权限,相关操作请参见创建ClickHouse角色。
- 在FusionInsight Manager中创建一个人机用户,例如“cdluser”,该用户需具有ClickHouse管理员权限(相关操作请参见创建ClickHouse角色),并加入用户组cdladmin、hadoop、kafka、supergroup,主组选择“cdladmin”组,关联角色“System_administrator”。
- 手动创建ClickHouse侧的本地表和分布式表, 本地表使用ReplicatedReplacingMergeTree引擎,详细操作请参见ClickHouse客户端使用实践章节。
操作步骤
- 使用cdluser用户登录FusionInsight Manager(首次登录需要修改密码),选择“集群 > 服务 > CDL”,单击“CDLService UI”右侧的超链接,进入CDLService WebUI界面。
- 选择“连接管理 > 新增连接”,进入“新增连接”参数配置窗口,参考下表,分别新增“clickhouse”和“hudi”连接,相关数据连接参数介绍请参见创建CDL数据库连接。
表1 ClickHouse数据连接配置参数 参数名称
示例
Link Type
clickhouse
Name
cklink
Host
10.10.10.10:21428
User
cdluser
Password
cdluser用户密码
Description
-
表2 Hudi数据连接配置参数 参数名称
示例
Link Type
hudi
Name
hudilink
Storage Type
hdfs
Auth KeytabFile
/opt/Bigdata/third_lib/CDL/user_libs/cdluser.keytab
Principal
cdluser
Description
-
- 参数配置完成后,单击“测试连接”,检查数据连通是否正常。
连接校验通过后,单击“确定”完成数据连接创建。
- (可选)选择“ENV管理 > 新建ENV”,进入“新建ENV”参数配置窗口,参考下表进行参数配置。
表3 新建ENV配置参数 参数名称
示例
Name
test-env
Driver Memory
1GB
Type
spark
Executor Memory
1GB
Executor Cores
1
Number Executors
1
Queue
-
Description
-
参数配置完成后,单击“确定”创建ENV。
- 选择“作业管理 > 数据同步任务 > 新建作业”,在“新建作业”窗口中填写配置。单击“下一步”,进入作业参数配置页面。
其中:
参数名称
示例
Name
job_huditock
Desc
-
- 配置Hudi作业参数。
- 在作业参数配置页面,选取左侧Source区域的“hudi”图标拖入右侧编辑区域,然后双击此图标进入Hudi作业参数配置窗口。参考下表进行参数配置,相关作业参数介绍请参见创建CDL数据同步任务作业。
表4 Source Hudi作业参数 参数名称
示例
Link
hudilink
Interval
10
Table Info
{"table1":[{"source.database":"db","source.tablename":"tabletest","target.tablename":"default.tabletest"}]}
说明:无需配置Hudi自带的字段,只配置需同步至ClickHouse的业务字段即可。
- 单击“确定”,Hudi作业参数配置完成。
- 在作业参数配置页面,选取左侧Source区域的“hudi”图标拖入右侧编辑区域,然后双击此图标进入Hudi作业参数配置窗口。参考下表进行参数配置,相关作业参数介绍请参见创建CDL数据同步任务作业。
- 配置ClickHouse作业参数。
- 在作业参数配置页面,选取左侧“clickhouse”图标拖入右侧编辑区域,然后双击此图标进入ClickHouse作业参数配置窗口。参考下表进行参数配置,相关作业参数介绍请参见创建CDL数据同步任务作业:
表5 ClickHouse作业参数 参数名称
示例
Link
cklink
Query Timeout
60000
Batch Size
100
- 单击“确定”,完成ClickHouse作业参数配置。
- 在作业参数配置页面,选取左侧“clickhouse”图标拖入右侧编辑区域,然后双击此图标进入ClickHouse作业参数配置窗口。参考下表进行参数配置,相关作业参数介绍请参见创建CDL数据同步任务作业:
- 作业参数配置完成后,拖拽图标将作业进行关联,然后单击“保存”,作业配置完成。
- 在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。
观察数据传输是否生效,例如在Hudi中对表进行插入数据操作,查看ClickHouse导入的文件内容。