配置实时处理集成作业
完成数据连接、网络、资源组的准备配置后,您可创建实时同步作业,将多种输入及输出数据源搭配组成同步链路,进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务,并在创建完成后查看任务运行情况。
前提条件
- 已创建数据连接,且创建的连接必须已勾选数据集成选项,详情请参见创建DataArts Studio数据连接 。
- 已购买资源组,详情请参见购买数据集成资源组。
- 数据集成资源组与数据源网络已打通,详情请参见配置实时网络连接。
- 已创建一个实时处理集成作业,详情请参见新建实时处理集成作业。
操作步骤
- 参见新建实时处理集成作业创建一个实时处理集成作业。
- 配置类型。
- 选择数据连接类型。
选择源端和目的端的数据类型,支持的源端与目的端请参见支持的数据源。
图1 选择数据连接类型
- 选择集成作业类型。
- 配置网络资源。
网络资源配置包含选择源端、目的端数据连接、选择资源组、网络连通性检测。
需要选择“数据连接”和“资源组”。配置流程如下:
- 配置源端数据连接。
选择已创建的数据连接。源端数据连接以MySQL数据连接为例。
图2 选择源端数据连接
无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见配置DataArts Studio数据连接参数进行配置。
图3 创建数据连接
- 配置资源组。
图4 选择资源组
无可选资源组时,可单击“新建”跳转至购买资源组页面创建资源组配置,详情请参见购买数据集成资源组增量包进行配置。
- 配置目的端的数据连接。
目的端数据连接以Hudi数据连接为例。选择已创建的数据连接。
图5 选择目的端数据连接
无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见创建DataArts Studio数据连接进行配置。
- 检测网络连通性,测试通过进行下一步源端配置。
数据连接和资源组配置完成后需要测试整个迁移任务的网络连通性。可通过以下方式进行数据源和资源组之间的连通性测试。
- 单击源端和目的端数据源和资源组中的“测试”进行检测。
- 单击展开“源端配置”会触发连通性测试,会对整个迁移任务的连通性做校验。
表2 各数据连接类型网络不通排查方法 类型
异常项
方法
数据源 - CDM异常
实例状态检查异常。
检查集群是否在及是否正常运行。
连通性检查异常。
- 检查CDM集群和数据源是否在同一个VPC下。
- 如果CDM集群和数据源不在同一个VPC,则需要创建对等连接,打通CDM VPC和数据源 VPC,并且数据源安全组入方向添加CDM集群内网IP,CDM集群安全组出方向添加数据源IP,详情请参见创建DataArts Studio数据连接。
数据源 - 资源组异常
资源组状态检查异常。
请在“DataArts控制台实例 > 资源管理 > 实时资源管理”检查资源组是否运行。
RDS(MySQL)
- 请检查“管理中心 > 数据连接”,MySQL数据连接是否配置正确,“IP或域名”是否填写RDS内网IP,绑定Agent是否状态正常。
- 请检查“DataArts控制台实例 > 资源管理 > 实时网络连接管理”, 查看是否创建了MySQL所在VPC和子网的网络连接,并且该网络连接是否成功绑定资源组。
- 请检查RDS实例安全组, 打开RDS实例页面,进入RDS实例基本信息、找到连接信息部分,单击安全组,跳转到安全组页面,选择“入方向规则”页签,搜索源地址是否有资源组网段。
MRS HUDI
- 请检查“管理中心 > 数据连接”,MRS HUDI数据连接是否配置正确。
- 请检查“DataArts实例控制台 > 资源管理 > 实时网络连接管理”,资源组是否与MRS的VPC子网建立网络连接。
- 请检查MRS集群安全组入方向规则,是否添加资源组的网段。
DMS Kafka
- 请检查“管理中心 > 数据连接”,创建Kafka数据连接,"Kafka Broker”填写Kafka内网IP。
- 在“资源管理 > 实时网络连接管理”,创建网络连接,选择需要连通的资源组和Kafka所在的VPC子网。
- 在DMS Kafka安全组入方向规则,添加资源组的网段。
- 配置源端数据连接。
- 选择数据连接类型。
- 配置源端、目标端参数。
不同源端或目的端参数配置不同,详情请参见配置源端和目标端参数。
- (可选)配置DDL。
对于关系型数据的实时同步,其原始实时信息会包含DDL操作,此处可以设置针对于这些DDL消息同步到目标表时的操作。
实时处理集成作业除了对数据的增删查改能够同步外,实时处理集成作业支持对表结构变化(DDL)的同步。当前只支持目的端为Hudi时“新增列”的同步。对需要同步的DDL操作选择“正常处理”,其他参数默认即可。
- 配置任务属性。
- 提交任务。
作业配置完毕后,单击作业开发页面左上角“提交”,完成作业提交。
图6 提交作业
- 自动建表。
以目的端为Hudi会触发自动建表为例。
用户提交作业后,单击开始建表会触发自动建表,对不存在的表自动创建。
单击开始建表,后台会做Hudi表配置分析,并进行自动建表。建表失败可以查看失败提示信息进行手动建表或联系技术支持。
自动建表成功以后,单击确定作业即保存成功。
- 运行任务。
作业配置完毕后,单击作业开发页面左上角“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步参数,单击“确定”启动作业。
图7 启动配置
表4 启动配置参数 链路
参数
说明
Apache Kafka - MRS Kafka
偏移量参数:支持选择最早、最新、起止时间。
偏移量参数选择“最新”,可能会导致作业遇到脏数据时重启,此时如果没触发checkpoint,作业会以当前重启时间作为最新时间,从重启时间开始消费,导致数据不一致,请谨慎选择。
DMS Kafka - OBS
MYSQL - DWS
- 同步模式:
- 增量同步
- 全量+增量
- 时间:配置的位点时间早于日志最早时间点时,会以日志最早时间点消费。增量同步时需要设置该参数。
增量:需要选择同步时间。即源端SQ执行时间及 Kafka写入时间。
全量+增量:先同步全量数据,后同步增量数据。
MYSQL - Hudi
MYSQL - DMS Kafka
启动作业后,即进入运行中开始数据迁移。
- 同步模式:
- 监控作业。
对已运行的作业可以设置不同的监控规则。关于实时处理集成作业相关告警,详情请参见管理并查看监控指标。