更新时间:2024-11-29 GMT+08:00
从Oracle抓取数据到HDFS
操作场景
本章节指导用户通过CDLService WebUI界面从Oracle导入数据到HDFS。
前提条件
- 集群已安装CDL、HDFS服务且运行正常。
- Oracle数据库需要开启预写日志功能,操作步骤请参考CDL使用说明。
- 在FusionInsight Manager中创建一个人机用户,例如“cdluser”,加入用户组cdladmin、hadoop、kafka,主组选择“cdladmin”组,关联角色“System_administrator”。
操作步骤
- 使用cdluser用户登录FusionInsight Manager(首次登录需要修改密码),选择“集群 > 服务 > CDL”,在CDL“概览”界面单击“CDLService UI”右侧的超链接,进入CDL原生界面。
- 选择“驱动管理 > 上传驱动”,上传Oracle数据库驱动文件,具体步骤请参考上传驱动文件章节。
- 选择“连接管理 > 新增连接”,进入“新增连接”参数配置窗口,参考下表,分别新增“oracle”和“hdfs”连接。
表1 Oracle数据连接配置参数 参数名称
示例
Link Type
oracle
Name
oraclelink
DB driver
oracle-connector-java-8.0.24.jar
Host
10.10.10.10
Port
1521
User
user
Password
user用户密码
Sid
orcl
Description
该连接的描述信息
表2 HDFS数据连接配置 参数名称
示例
Link Type
hdfs
Name
hdfslink
Description
-
- 参数配置完成后,单击“测试连接”,检查数据连通是否正常。
连接校验通过后,单击“确定”完成数据连接创建。
- 在“作业管理”页面单击“新建作业”。在“新建作业”窗口中填写配置。单击“下一步”,进入作业参数配置页面。
其中:
参数名称
示例
Name
job_oracletohdfs
Desc
xxx
- 配置Oracle作业参数。
- 在作业参数配置页面,选取左侧“oracle”图标拖入右侧编辑区域,然后双击此图标进入Oracle作业参数配置窗口。
表3 Oracle作业参数 参数名称
示例
Link
oraclelink
Tasks Max
1
Mode
insert、update、delete
Schema
ORACLEDBA
dbName Alias
orcl
Connect With Hudi
否
- 单击“+”按钮展开更多选项。
- “WhiteList”:输入数据库中的表(如myclass)
- “Topic Table Mapping”:
- 若“Connect With Hudi”选择“是”,则该参数为必填项。
- 第一个框输入topic名(与“Default Topic”的值不能一样,例如myclass_topic)。 第二个框输入表名(例如myclass。该值与第一个框的topic只能是一对一的关系)。
- 单击“确定”,Oracle作业参数配置完成。
- 在作业参数配置页面,选取左侧“oracle”图标拖入右侧编辑区域,然后双击此图标进入Oracle作业参数配置窗口。
- 配置HDFS作业参数。
- 在作业参数配置页面,选取左侧“hdfs”图标拖入右侧编辑区域,然后双击此图标进入HDFS作业参数配置窗口。参考表4进行参数配置。
- 单击“确定”,完成HDFS作业参数配置。
- 作业参数配置完成后,拖拽图标将作业进行关联,然后单击“保存”,作业配置完成。
- 在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。
观察数据传输是否生效,例如在Oracle数据库中对表进行插入数据操作,查看HDFS导入的文件内容。
父主题: 常见CDL作业示例