更新时间:2024-10-11 GMT+08:00
分享

典型场景示例:迁移Kafka数据至DLI

本文为您介绍如何通过CDM数据同步功能,迁移MRS Kafka数据至DLI。

前提条件

  • 已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列

    创建DLI队列时队列类型需要选择为“SQL队列”。

  • 已创建包含Kafka组件的MRS安全集群。具体创建MRS集群的操作可以参考创建MRS集群
    • 本示例创建的MRS集群版本为:MRS 3.1.0。
    • 本示例创建的MRS集群开启了Kerberos认证。
  • 已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群
    • 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
    • 数据源为云上的MRS、DWS时,网络互通需满足如下条件:

      i. CDM集群与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,数据源所在的主机可以访问公网且防火墙规则已开放连接端口。

      ii. CDM集群与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则。

      配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。

      iii. 此外,您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同,如果不同,需要修改工作空间的企业项目。

    本示例CDM集群的虚拟私有云、子网以及安全组和创建的MRS集群保持一致。

步骤一:数据准备

  • MRS集群上创建Kafka的Topic并且向Topic发送消息。
    1. 参考访问MRS Manager登录MRS Manager。
    2. 在MRS Manager上,选择“系统 > 权限 > 用户”,单击“添加用户”,在添加用户页面分别配置如下参数。
      1. 用户名:自定义的用户名。当前示例输入为:testuser2。
      2. 用户类型:当前选择为“人机”。
      3. 密码和确认密码:输入当前用户名对应的密码。
      4. 用户组和主组:选择kafkaadmin。
      5. 角色:选择Manager_viewer角色。
        图1 MRS Manager上创建Kafka用户
    3. 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper > 实例”,获取ZooKeeper角色实例的IP地址,为后续步骤做准备。
    4. 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > kafka > 实例”,获取kafka角色实例的IP地址,为后续步骤做准备。
    5. 参考安装MRS客户端下载并安装Kafka客户端。例如,当前Kafka客户端安装在MRS主机节点的“/opt/kafkaclient”目录上。
    6. 以root用户进入客户端安装目录下。

      例如:cd /opt/kafkaclient

    7. 执行以下命令配置环境变量。

      source bigdata_env

    8. 因为当前集群启用了Kerberos认证,则需要执行以下命令进行安全认证。认证用户为2中创建的用户。

      kinit 2中创建的用户名

      例如,kinit testuser2

    9. 执行以下命令创建名字为kafkatopic的Kafka Topic。
      kafka-topics.sh --create --zookeeper ZooKeeper角色实例所在节点IP地址1:2181,ZooKeeper角色实例所在节点IP地址2:2181,ZooKeeper角色实例所在节点IP地址3:2181/kafka --replication-factor 1 --partitions 1 --topic kafkatopic

      上述命令中的“ZooKeeper角色实例所在节点IP地址”即为3中获取的ZooKeeper实例IP。

    10. 执行以下命令向kafkatopic发送消息。
      kafka-console-producer.sh --broker-list Kafka角色实例所在节点的IP地址1:21007,Kafka角色实例所在节点的IP地址2:21007,Kafka角色实例所在节点的IP地址3:21007 --topic kafkatopic --producer.config /opt/kafkaclient/Kafka/kafka/config/producer.properties

      上述命令中的“Kafka角色实例所在节点的IP地址”即为4中获取的Kafka实例IP。

      发送测试消息内容如下:
      {"PageViews":5, "UserID":"4324182021466249494", "Duration":146,"Sign":-1}
  • 在DLI上创建数据库和表。
    1. 登录DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列。

      在编辑器中输入以下语句创建数据库,例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库

      create database testdb;
    2. 创建数据库下的表。详细的DLI建表语法可以参考创建DLI表
      CREATE TABLE testdlitable(value STRING);

步骤二:数据迁移

  1. 配置CDM数据源连接。
    1. 配置源端MRS Kafka的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“MRS Kafka”,单击“下一步”。
        图2 创建MRS Kafka数据源
      3. 配置源端MRS Kafka的数据源连接,具体参数配置如下。
        表1 MRS Kafka数据源配置

        参数

        名称

        自定义MRS Kafka数据源名称。例如当前配置为“source_kafka”。

        Manager IP

        单击输入框旁边的“选择”按钮,选择当前MRS Kafka集群即可自动关联出来Manager IP。

        用户名

        2中创建的MRS Kafka用户名。

        密码

        对应MRS Kafka用户名的密码。

        认证类型

        如果当前MRS集群为普通集群则选择为SIMPLE,如果是MRS集群启用了Kerberos安全认证则选择为KERBEROS。

        本示例选择为:KERBEROS。

        更多参数的详细说明可以参考CDM上配置Kafka连接
        图3 CDM配置MRS Kafka数据源连接
      4. 单击“保存”完成MRS Kafka数据源配置。
    2. 配置目的端DLI的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“数据湖探索(DLI)”,单击“下一步”。
        图4 创建DLI数据源连接
      3. 配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接
        图5 配置DLI数据源连接参数
      4. 配置完成后,单击“保存”完成DLI数据源配置。
  2. 创建CDM迁移作业。
    1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
    2. 在“作业管理”界面,选择“表/文件迁移”,单击“新建作业”。
    3. 在新建作业界面,配置当前作业配置信息,具体参数参考如下:
      图6 新建CDM作业作业配置
      1. 作业名称:自定义数据迁移的作业名称。例如,当前定义为:test。
      2. 源端作业配置,具体参考如下:
        表2 源端作业配置

        参数名

        参数值

        源连接名称

        选择1.a中已创建的数据源名称。

        Topics

        选择MRS Kafka待迁移的Topic名称,支持单个或多个Topic。当前示例为:kafkatopic。

        数据格式

        根据实际情况选择当前消息格式。本示例选择为:CDC(DRS_JSON),以DRS_JSON格式解析源数据。

        偏移量参数

        从Kafka拉取数据时的初始偏移量。本示例当前选择为:最新。

        • 最新:最大偏移量,即拉取最新的数据。
        • 最早:最小偏移量,即拉取最早的数据。
        • 已提交:拉取已提交的数据。
        • 时间范围:拉取时间范围内的数据。

        是否持久运行

        用户自定义是否永久运行。当前示例选择为:否。

        拉取数据超时时间

        持续拉取数据多长时间超时,单位分钟。当前示例配置为:15。

        等待时间

        可选参数,超出等待时间还是无法读取到数据,则不再读取数据,单位秒。当前示例不配置该参数。

        消费组ID

        用户指定消费组ID。当前使用MRS Kafka默认的消息组ID:“example-group1”。

        其他参数的详细配置说明可以参考:CDM配置Kafka源端参数

      3. 目的端作业配置,具体参考如下:
        表3 目的端作业配置

        参数名

        参数值

        目的连接名称

        选择1.b已创建的DLI数据源连接。

        资源队列

        选择已创建的DLI SQL类型的队列。

        数据库名称

        选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。

        表名

        选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“testdlitable”。

        导入前清空数据

        选择导入前是否清空目的表的数据。当前示例选择为“否”。

        如果设置为是,任务启动前会清除目标表中数据。

        详细的参数配置可以参考:CDM配置DLI目的端参数

  3. 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。
    • 如果字段映射顺序不匹配,可通过拖拽字段调整。
    • 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。
    • CDM支持迁移过程中转换字段内容,详细请参见字段转换
    图7 字段映射
  4. 单击“下一步”配置任务参数,一般情况下全部保持默认即可。

    该步骤用户可以配置如下可选功能:

    • 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。
    • 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
    • 是否定时执行:如果需要配置作业定时自动执行,请参见配置定时任务。这里保持默认值“否”。
    • 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。
    • 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
  5. 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。
    图8 迁移作业进度和结果查询

步骤三:结果查询

CDM迁移作业运行完成后,再登录到DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列,数据库选择已1已创建的数据库,执行DLI表查询语句,查询Kafka数据是否已成功迁移到DLI的“testdlitable”表中。
select * from testdlitable;

相关文档