更新时间:2024-11-29 GMT+08:00

从MySQL抓取数据到HDFS

操作场景

本章节指导用户通过CDLService WebUI界面从MySQL导入数据到HDFS。

前提条件

  • 集群已安装CDL、HDFS服务且运行正常。
  • 待连接的MySQL数据库需要开启MySQL的bin log功能(默认情况下是开启的),具体详情请参见CDL使用说明
  • 在FusionInsight Manager中创建一个人机用户,例如“cdluser”,加入用户组cdladmin、hadoop、kafka,主组选择“cdladmin”组,关联角色“System_administrator”

操作步骤

  1. 使用cdluser用户登录FusionInsight Manager(首次登录需要修改密码),选择“集群 > 服务 > CDL”,在CDL“概览”界面单击“CDLService UI”右侧的超链接,进入CDL原生界面。
  2. 选择“驱动管理 > 上传驱动”,上传MySql数据库驱动文件,具体步骤请参考上传驱动文件章节。
  3. 选择“连接管理 > 新增连接”,进入“新增连接”参数配置窗口,参考下表,分别新增“mysql”和“hdfs”连接。

    表1 MySQL数据连接配置

    参数名称

    示例

    Link Type

    mysql

    Name

    mysqllink

    DB driver

    mysql-connector-java-8.0.24.jar

    Host

    10.10.10.10

    Port

    3306

    User

    user

    Password

    user用户密码

    Description

    该连接的描述信息

    表2 HDFS数据连接配置

    参数名称

    示例

    Link Type

    hdfs

    Name

    hdfslink

    Description

    -

  4. 参数配置完成后,单击“测试连接”,检查数据连通是否正常。

    连接校验通过后,单击“确定”完成数据连接创建。

  5. 在“作业管理”页面单击“新建作业”。在“新建作业”窗口中填写配置。单击“下一步”。

    其中:

    参数名称

    示例

    Name

    job_mysqltohdfs

    Desc

    xxx

  6. 配置MySQL作业参数。

    1. 在作业参数配置页面,选取左侧“mysql”图标拖入右侧编辑区域,然后双击此图标进入MySQL作业参数配置窗口。参考下表配置参数。
      表3 MySQL作业参数

      参数名称

      示例

      Link

      mysqllink

      Tasks Max

      10

      Mode

      insert、update、delete

      DB Name

      cdl-test

      Schema Auto Create

      Connect With Hudi

    2. (可选)单击“+”按钮展开更多选项。

      • “WhiteList”:输入MySQL数据库中的表(如myclass)
      • “Topic Table Mapping”:
        • 若“Connect With Hudi”选择“是”,则该参数为必填项。
        • 第一个框输入topic名(与“Default Topic”的值不能一样,例如myclass_topic)。 第二个框输入表名(例如myclass。该值与第一个框的topic只能是一对一的关系)。
    3. 单击“确定”,MySQL作业参数配置完成。

  7. 配置HDFS作业参数。

    1. 在作业参数配置页面,选取左侧“hdfs”图标拖入右侧编辑区域,然后双击此图标进入HDFS作业参数配置窗口。参考表4进行参数配置。
      表4 HDFS作业参数

      参数名称

      示例

      Link

      hdfslink

      Topics

      保持默认

      Tasks Max

      10

      Mode

      insert、update、delete

      Path

      /cdldata

      Tolerance

      all

      Cache Size (pcs)

      1000

      Interval (s)

      1

    2. 单击“确定”,完成HDFS作业参数配置。

  8. 作业参数配置完成后,拖拽图标将作业进行关联,然后单击“保存”,作业配置完成。

  9. 在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。

    观察数据传输是否生效,例如在MySQL数据库中对作业中指定的表进行插入数据操作,查看HDFS导入的文件内容是否正常。