配置实时集成作业
完成数据连接、网络、migration资源组等准备工作的配置后,您可创建并配置实时集成作业,将多种输入及输出数据源搭配组成同步链路,进行数据的实时同步。
前提条件
- 已购买migration资源组,详情请参见购买数据集成资源组。
- 已准备数据源,对应连接账号具备权限,详情请参考实时作业使用前自检中对应数据库账号权限要求。
- 已创建数据连接,且创建的连接必须已勾选数据集成选项,详情请参见创建DataArts Studio数据连接 。
- 数据集成migration资源组与数据源网络已打通,详情请参见网络打通。
操作步骤
- 参见新建实时集成作业创建一个实时处理集成作业。
- 配置数据连接类型。
选择源端和目的端的数据类型,支持的源端与目的端请参见新建实时集成作业。图1 选择数据连接类型
- 选择集成作业类型。
- 同步类型:默认为实时,不可更改。
- 同步场景:包含单表、整库、分库分表场景,各数据源支持的场景不一,详情请参见实时集成作业使用教程。
不同场景介绍如表1所示。
表1 同步场景参数说明 场景类型
说明
单表
支持将源端一个实例下的单张表实时同步至目的端一个实例下的单张表。
整库
支持将源端一个实例下多个库的多张表批量实时同步到目的端一个实例下的多个库表,一个任务中最多支持200张目标表。
分库分表
支持将源端多个实例下多个分库的多张分表同步到目的端一个实例下的单个库表。
图2 选择集成作业类型
- 配置网络资源。
选择已创建的源端、目的端数据连接及已配置好网络连接的migration资源组。图3 选择数据连接及migration资源组
无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见配置DataArts Studio数据连接参数进行配置。
无可选migration资源组时,可单击“新建”跳转至购买migration资源组页面创建migration资源组配置,详情请参见购买数据集成资源组增量包进行配置。
- 检测网络连通性。
数据连接和migration资源组配置完成后需要测试整个迁移任务的网络连通性,可通过以下方式进行数据源和migration资源组之间的连通性测试。
- 单击展开“源端配置”触发连通性测试,会对整个迁移任务的连通性做校验。
- 单击源端和目的端数据源和migration资源组中的“测试”按钮进行检测。
- 配置源端、目标端参数。
各链路源端或目的端参数配置不同,详情请参见实时集成作业使用教程中对应的文档进行配置。
- 刷新源表和目标表映射,检查映射关系是否正确,同时可根据需求修改表属性、添加附加字段。
- (可选)配置DDL消息处理规则。
实时集成作业除了能够同步对数据的增删改等DML操作外,也支持对部分表结构变化(DDL)进行同步。针对支持的DDL操作,用户可根据实际需求配置为正常处理/忽略/出错。
- 正常处理:Migration识别到源端库表出现该DDL动作时,作业自动同步到目的端执行该DDL操作。
- 忽略:Migration识别到源端库表出现该DDL动作时,作业忽略该DDL,不同步到目的端表中。
- 出错:Migration识别到源端库表出现该DDL动作时,作业抛出异常。
图4 DDL配置
- 配置任务属性。
表2 任务配置参数说明 参数
说明
默认值
执行内存
作业执行分配内存,跟随处理器核数变化而自动变化。
8GB
处理器核数
范围:2-32。
每增加1处理核数,则自动增加4G执行内存和1并发数。
2
并发数
作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。
1
自动重试
作业失败时是否开启自动重试。
否
最大重试次数
“自动重试”为是时显示该参数。
1
重试间隔时间
“自动重试”为是时显示该参数。
120秒
是否写入脏数据
选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。
链路是否支持写入脏数据,以实际界面为准。
- 否:默认为否,不记录脏数据。
- 是:允许脏数据,即任务产生脏数据时不影响任务执行。
允许脏数据并设置其阈值时:
- 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。
- 若产生的脏数据超出阈值范围,同步任务将失败退出。
说明:
脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据;单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。
例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时,配置同步过程中是否写入脏数据,配置脏数据条数(单个分片的最大错误记录数)保证任务运行,即当脏数据超过指定条数时,任务失败退出。
否
脏数据策略
“是否写入脏数据”为是时显示该参数,当前支持以下策略:
- 不归档:不对脏数据进行存储,仅记录到任务日志中。
- 归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。
不归档
脏数据写入连接
“脏数据策略”选择归档到OBS时显示该参数。
脏数据要写入的连接,目前只支持写入到OBS连接。
-
脏数据目录
脏数据写入的OBS目录。
-
脏数据阈值
是否写入脏数据为是时显示该参数。
用户根据实际设置脏数据阈值。
说明:- 脏数据阈值仅针对每个并发生效。比如阈值为100,并发为3,则该作业可容忍的脏数据条数最多为300。
- 输入-1表示不限制脏数据条数。
100
添加自定义属性
支持通过自定义属性修改部分作业参数及开启部分高级功能,详情可参见任务性能调优章节。
-
- 提交并运行任务。
作业配置完毕后,单击作业开发页面左上角“提交”,完成作业提交。
图5 提交作业提交成功后,单击作业开发页面“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。
图6 启动配置表3 启动配置参数 参数
说明
同步模式
数据源通用同步模式:
- 增量同步:从指定时间位点开始同步增量数据。
- 全量+增量:先同步全量数据,随后实时同步增量数据。
Kafka数据源专用同步模式:
- 最早:从Kafka Topic最早偏移量开始消费数据。
- 最新:从Kafka Topic最新偏移量开始消费数据。
- 起止时间:根据时间获取Kafka Topic对应的偏移量,并从该偏移量开始消费数据。
时间
同步模式选择增量同步和起止时间时需要设置该参数,指示增量同步起始的时间位点。
说明:- 配置的位点时间早于数据源增量日志最早时间点时,默认会以日志最新时间点开始消费。
- 配置的位点时间早于Kafka消息最早偏移量时,默认会从最早偏移量开始消费。
- 监控作业。
通过单击作业开发页面导航栏的“前往监控”按钮,可前往作业监控页面查看运行情况、监控日志等信息,并配置对应的告警规则,详情请参见实时集成任务运维。
图7 前往监控