更新时间:2024-10-22 GMT+08:00

配置实时处理集成作业

完成数据连接、网络、资源组的准备配置后,您可创建实时同步作业,将多种输入及输出数据源搭配组成同步链路,进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务,并在创建完成后查看任务运行情况。

前提条件

操作步骤

  1. 参见新建实时处理集成作业创建一个实时处理集成作业。
  2. 配置类型。

    1. 选择数据连接类型。

      选择源端和目的端的数据类型,支持的源端与目的端请参见支持的数据源

      图1 选择数据连接类型
    2. 选择集成作业类型。
      1. 同步类型:默认为实时,不可更改。
      2. 选择同步场景,支持分库分表和整库同步方式,具体支持的数据源请参见支持的数据源
        不同场景介绍如表1所示。
        表1 同步场景参数说明

        场景类型

        说明

        整库

        整库迁移场景支持同时对源端多张库表批量操作。

        分库分表

        将多个来源的多个数据库的多个分表迁移到目的端的一个表中,支持灵活配置来源库来源表和目标表的映射关系。

    3. 配置网络资源。

      网络资源配置包含选择源端、目的端数据连接、选择资源组、网络连通性检测。

      需要选择“数据连接”和“资源组”。配置流程如下:

      1. 配置源端数据连接。

        选择已创建的数据连接。源端数据连接以MySQL数据连接为例。

        图2 选择源端数据连接

        无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见配置DataArts Studio数据连接参数进行配置。

        图3 创建数据连接
      2. 配置资源组。

        选择配置好网络连接的资源组。

        图4 选择资源组

        无可选资源组时,可单击“新建”跳转至购买资源组页面创建资源组配置,详情请参见购买数据集成资源组增量包进行配置。

      3. 配置目的端的数据连接。

        目的端数据连接以Hudi数据连接为例。选择已创建的数据连接。

        图5 选择目的端数据连接

        无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见创建DataArts Studio数据连接进行配置。

      4. 检测网络连通性,测试通过进行下一步源端配置。

        数据连接和资源组配置完成后需要测试整个迁移任务的网络连通性。可通过以下方式进行数据源和资源组之间的连通性测试。

        • 单击源端和目的端数据源和资源组中的“测试”进行检测。
        • 单击展开“源端配置”会触发连通性测试,会对整个迁移任务的连通性做校验。
          表2 各数据连接类型网络不通排查方法

          类型

          异常项

          方法

          数据源 - CDM异常

          实例状态检查异常。

          检查集群是否在及是否正常运行。

          连通性检查异常。

          1. 检查CDM集群和数据源是否在同一个VPC下。
          2. 如果CDM集群和数据源不在同一个VPC,则需要创建对等连接,打通CDM VPC和数据源 VPC,并且数据源安全组入方向添加CDM集群内网IP,CDM集群安全组出方向添加数据源IP,详情请参见创建DataArts Studio数据连接

          数据源 - 资源组异常

          资源组状态检查异常。

          请在“DataArts控制台实例 > 资源管理 > 实时资源管理”检查资源组是否运行。

          RDS(MySQL)

          1. 请检查“管理中心 > 数据连接”,MySQL数据连接是否配置正确,“IP或域名”是否填写RDS内网IP,绑定Agent是否状态正常。
          2. 请检查“DataArts控制台实例 > 资源管理 > 实时网络连接管理”, 查看是否创建了MySQL所在VPC和子网的网络连接,并且该网络连接是否成功绑定资源组。
          3. 请检查RDS实例安全组, 打开RDS实例页面,进入RDS实例基本信息、找到连接信息部分,单击安全组,跳转到安全组页面,选择“入方向规则”页签,搜索源地址是否有资源组网段。

          MRS HUDI

          1. 请检查“管理中心 > 数据连接”,MRS HUDI数据连接是否配置正确。
          2. 请检查“DataArts实例控制台 > 资源管理 > 实时网络连接管理”,资源组是否与MRS的VPC子网建立网络连接。
          3. 请检查MRS集群安全组入方向规则,是否添加资源组的网段。

          DMS Kafka

          1. 请检查“管理中心 > 数据连接”,创建Kafka数据连接,"Kafka Broker”填写Kafka内网IP。
          2. 在“资源管理 > 实时网络连接管理”,创建网络连接,选择需要连通的资源组和Kafka所在的VPC子网。
          3. 在DMS Kafka安全组入方向规则,添加资源组的网段。

  3. 配置源端、目标端参数。

    不同源端或目的端参数配置不同,详情请参见配置源端和目标端参数

  4. (可选)配置DDL。

    对于关系型数据的实时同步,其原始实时信息会包含DDL操作,此处可以设置针对于这些DDL消息同步到目标表时的操作。

    实时处理集成作业除了对数据的增删查改能够同步外,实时处理集成作业支持对表结构变化(DDL)的同步。当前只支持目的端为Hudi时“新增列”的同步。对需要同步的DDL操作选择“正常处理”,其他参数默认即可。

  5. 配置任务属性。

    表3 任务配置参数说明

    参数

    说明

    默认值

    执行内存

    作业执行分配内存,跟随处理器核数变化而自动变化。

    8GB

    处理器核数

    范围:2-32。

    每增加1处理核数,则自动增加4G执行内存和1并发数。

    2

    并发数

    作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。

    1

    自动重试

    作业失败时是否开启自动重试。

    最大重试次数

    自动重试为是时显示该参数。

    1

    重试间隔时间

    自动重试为是时显示该参数。

    120秒

    是否写入脏数据

    选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。

    目前MySQL到DWS、MySQL到Hudi、MySQL到Kafka链路支持写入脏数据,以实际界面为准。

    • 否:默认为否,不记录脏数据。

      表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。

    • 是:允许脏数据,即任务产生脏数据时不影响任务执行。
      允许脏数据并设置其阈值时:
      • 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。
      • 若产生的脏数据超出阈值范围,同步任务将失败退出。
        说明:

        脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据;单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。

        例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时,配置同步过程中是否写入脏数据,配置脏数据条数(单个分片的最大错误记录数)保证任务运行,即当脏数据超过指定条数时,任务失败退出。

    脏数据策略

    是否写入脏数据为是时显示该参数。

    脏数据支持以下策略:

    • 不归档。
    • 归档到OBS。

    不归档

    脏数据写入连接

    脏数据策略选择归档到OBS时显示该参数。

    脏数据要写入的连接,目前只支持写入到OBS连接。

    obslink

    脏数据目录

    设置脏数据的写入目录。

    obs://default/

    脏数据阈值

    是否写入脏数据为是时显示该参数。

    用户根据实际设置脏数据阈值。

    脏数据阈值会针对每个并发生效。比如阈值为100,并发为3,则该作业可容忍的脏数据条数为300。

    输入-1表示不限制脏数据条数。

    100

  6. 提交任务。

    作业配置完毕后,单击作业开发页面左上角“提交”,完成作业提交。

    图6 提交作业

  7. 自动建表。

    以目的端为Hudi会触发自动建表为例。

    用户提交作业后,单击开始建表会触发自动建表,对不存在的表自动创建。

    单击开始建表,后台会做Hudi表配置分析,并进行自动建表。建表失败可以查看失败提示信息进行手动建表或联系技术支持。

    自动建表成功以后,单击确定作业即保存成功。

  8. 运行任务。

    作业配置完毕后,单击作业开发页面左上角“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步参数,单击“确定”启动作业。

    图7 启动配置
    表4 启动配置参数

    链路

    参数

    说明

    Apache Kafka - MRS Kafka

    偏移量参数:支持选择最早、最新、起止时间。

    偏移量参数选择“最新”,可能会导致作业遇到脏数据时重启,此时如果没触发checkpoint,作业会以当前重启时间作为最新时间,从重启时间开始消费,导致数据不一致,请谨慎选择。

    DMS Kafka - OBS

    MYSQL - DWS

    • 同步模式:
      • 增量同步
      • 全量+增量
    • 时间:配置的位点时间早于日志最早时间点时,会以日志最早时间点消费。增量同步时需要设置该参数。

    增量:需要选择同步时间。即源端SQ执行时间及 Kafka写入时间。

    全量+增量:先同步全量数据,后同步增量数据。

    MYSQL - Hudi

    MYSQL - DMS Kafka

    启动作业后,即进入运行中开始数据迁移。

  9. 监控作业。

    对已运行的作业可以设置不同的监控规则。关于实时处理集成作业相关告警,详情请参见管理并查看监控指标