将Oracle同步到Kafka
支持的源和目标数据库
源数据库 |
目标数据库 |
---|---|
|
|
前提条件
- 已登录数据复制服务控制台。
- 满足实时同步支持的数据库类型和版本,详情请参见实时同步。
使用建议
- 数据库同步与环境多样性和人为操作均有密切关系,为了确保同步的平顺,建议您在进行正式的数据库同步之前进行一次演练,可以帮助您提前发现问题并解决问题。
- 建议您在启动任务时选择“稍后启动”功能,将启动时间设置在业务低峰期,避免同步对业务造成性能影响。
使用须知
在创建同步任务前,请务必阅读以下使用须知。
- 建议创建单独用于DRS任务连接的数据库账号,避免因为数据库账号密码修改,导致的任务连接失败。
- 连接源或目标数据库的账号密码修改后,请尽快修改DRS任务中的连接信息,避免任务连接失败后自动重试,导致数据库账号被锁定影响使用。
操作步骤
- 在“实时同步管理”页面,单击“创建同步任务”。
- 在“同步实例”页面,填选任务名称、描述、同步实例信息,单击“开始创建”。
- 任务信息
表3 任务和描述 参数
描述
任务名称
任务名称在4到50位之间,必须以字母开头,可以包含字母、数字、中划线或下划线,不能包含其他的特殊字符。
描述
描述不能超过256位,且不能包含! = < > & ' " \ 特殊字符。
- 同步实例信息
表4 同步实例信息 参数
描述
数据流动方向
选择“自建-自建”。
源数据库引擎
选择“Oracle”。
目标数据库引擎
选择“Kafka”。
网络类型
此处以“公网网络”为示例。目前支持可选公网网络、VPC网络和VPN、专线网络。
VPC
选择可用的虚拟私有云。
同步实例所在子网
请选择同步实例所在的子网。也可以单击“查看子网”,跳转至“网络控制台”查看实例所在子网帮助选择。
默认值为当前所选数据库实例所在子网,请选择有可用IP地址的子网。为确保同步实例创建成功,仅显示已经开启DHCP的子网。
内网安全组
请选择内网安全组。内网安全组限制实例的安全访问规则,加强安全访问。
同步模式
- 任务类型
表5 任务类型信息 参数
描述
可用区
DRS任务创建的可用区,选择跟源或目标库相同的可用区性能更优。
DRS任务类型选择“双AZ”时,可用区分为“主可用区”和“备可用区”。
对于创建失败的任务,DRS默认保留3天,超过3天将会自动结束任务。
- 任务信息
- 在“源库及目标库”页面,同步实例创建成功后,填选源库信息和目标库信息,单击“源库和目标库”处的“测试连接”,分别测试并确定与源库和目标库连通后,勾选协议,单击“下一步”。
表6 源库信息 参数
描述
IP地址或域名
源数据库的IP地址或域名。
说明:对于RAC集群,建议使用scanip接入,提高访问性能。
端口
源数据库服务端口,可输入范围为1~65535间的整数。
数据库服务名
数据库服务名(Service Name/SID),客户端可以通过其连接到Oracle,具体查询方法请参照界面提示。
PDB名称
PDB同步仅在Oracle12c及以后的版本支持,该功能为选填项,当需要迁移PDB中的表时开启。
PDB功能开启后,只能迁移该PDB中的表,并且需要提供CDB的service name/sid及用户名和密码,不需要PDB的用户名和密码。
数据库用户名
源数据库的用户名。
数据库密码
源数据库的用户名所对应的密码。
SSL安全连接
通过该功能,用户可以选择是否开启对迁移链路的加密。如果开启该功能,需要用户上传SSL CA根证书。
说明:- 最大支持上传500KB的证书文件。
- 如果不启用SSL安全连接,请自行承担数据安全风险。
源数据库的IP地址或域名、数据库用户名和密码,会被系统加密暂存,直至删除该迁移任务后自动清除。
表7 目标库信息 参数
描述
IP地址或域名
目标数据库的IP地址或域名。
安全协议
支持四种认证方式的选择,PLAINTEXT、SSL、SASL_PLAINTEXT和SASL_SSL,详细说明可参考Kafka认证方式。
- 在“设置同步”页面,选择Topic和同步对象,单击“下一步”。
表8 同步模式和对象 参数
描述
同步DDL
选择是否将DDL语句投递到Kafka中。如果选择同步DDL,在选择partition策略为按照主键hash时,因DDL中无主键值,DDL会按照表名hash后投递到topic中,其余情况下投递方式与partition策略一致。
全列数据
选择是否需要单行的数据完整,DRS增量通过解析源库日志实现,单行数据是否完整取决于日志中是否记录了所有列的值。
如果需要全列数据,则需要源库打开ALL级别的补全日志让日志中记录单行数据所有列的信息。该选项联动任务预检查阶段对源库补全日志级别的校验,DRS增量同步对于补全日志最低的要求为表级PK/UI级别的补全日志,补全日志检查方法可参考源库Oracle补全日志检查方法。
同步Topic策略
同步Topic策略,可选择
- 集中投递到一个Topic:适合源库业务量不大的场景。
- 按schema自动生成Topic名字:如果每个schema数据量很大,建议选择按schema自动生成Topic名字。
- 按schema-表名自动生成Topic名字:如果每张表数据量很大,建议选择schema-表名自动生成Topic名字。
Topic
选择目标端需要同步到的Topic,同步Topic策略选择集中投递到一个Topic时可见。
Topic名字格式
Topic名字格式,同步Topic策略选择自动生成Topic名字时可见。
由于Kafka的机制限制,Topic名字只能包含ASCII字符、"."、"_"及"-",如果超过该范围会导致创建Topic失败,任务异常。
如果Topic名字格式中包含数据库对象名,请确保对象名的字符在Kafka topic命名机制内。
Topic名字格式支持schema和tablename两个变量,其他字符都当做常量。分别用$schema$代替模式名,$tablename$代替表名。
例如:配置成 $schema$-$tablename$时,如果以oracle为源,模式名为schema1,表名为tab1,则Topic名字为schema1-tab1。
Partition个数
同步Topic策略选择自动生成Topic名字时可见。
用来设置topic的分区个数。每个topic都可以创建多个partition,越多的partition可以提供更高的吞吐量,越多的partition会消耗更多的资源,建议根据broker节点的实际情况来设置partition的数量。
副本个数
同步Topic策略选择自动生成Topic名字时可见。
用来设置topic的副本数。每个topic可以有多个副本,副本位于集群中不同的broker上,副本的数量不能超过broker的数量,否则创建topic时会失败。
同步到kafka partition策略
同步到kafka partition策略。
- 按schema.表名的hash值投递到不同Partition:适用于单表的查询场景,表内保序,表与表之间不保序,可以提高单表读写性能,推荐使用此选项。
- 按主键的hash值投递到不同Partition:适用于一个表一个Topic的场景,避免该表都写到同一个分区,消费者可以并行从各分区获取数据。
对于无主键表,如果选择“按主键的hash值投递都不同的partition”策略时,同步任务则会使用默认“schema.表名的hash值投递到不同的partition”的策略进行同步。
- 按schema的hash值投递到不同Partition:适用于一个schema一个topic的场景,避免多个schema下的数据写到一个分区,消费者可以并行从各分区获取数据。
- 全部投递到Partition 0:数据固定发送到Topic的0号分区,任务默认多线程发送数据,能够保证表级保序,表与表之间不保序,并发写入性能比较差,如果有强事务一致性要求,推荐选择此选项并找运维人员修改为单线程写Kafka或配置Topic策略按表名自动生成。
投送到kafka的数据格式
选择Oracle投送到kafka的数据格式。
- Avro:可以显示Avro二进制编码,高效获取数据。
- Json:为Json消息格式。
详细格式可参考Kafka消息格式。
同步对象
左侧框是源数据库对象,右侧框是已经选择的对象,同步对象支持表级同步、导入对象文件,您可以根据业务场景选择对应的数据进行同步。
- 选择导入对象文件时,支持不同表同步到目标端不同的Topic,具体导入步骤和说明可参考导入同步对象。
- 使用导入对象功能时 ,同步Topic策略选择“集中投递到一个Topic”,才能使用对象名映射功能,否则会按Topic名字格式生成。
说明:- 选择对象的时候支持对展开的库进行搜索,以便您快速选择需要的数据库对象。
- 如果有切换源数据库的操作或源库同步对象变化的情况,请在选择同步对象前单击右上角的,以确保待选择的对象为最新源数据库对象。
- 当对象名称包含空格时,名称前后的空格不显示,中间如有多个空格只显示一个空格。
- 选择的同步对象名称中不能包含空格。
- 在“预检查”页面,进行同步任务预校验,校验是否可进行实时同步。
- 查看检查结果,如有不通过的检查项,需要修复不通过项后,单击“重新校验”按钮重新进行任务预校验。
- 预检查完成后,且所有检查项结果均通过时,单击“下一步”。
所有检查项结果均通过时,如果存在请确认项,需要阅读并确认详情后才可以继续执行下一步操作。
- 在“任务确认”页面,设置同步任务的启动时间,并确认同步任务信息无误后,单击“启动任务”,提交同步任务。
表9 任务启动设置 参数
描述
启动时间
同步任务的启动时间可以根据业务需求,设置为“立即启动”或“稍后启动”。
说明:预计同步任务启动后,会对源数据库和目标数据库的性能产生影响,建议选择业务低峰期,合理设置同步任务的启动时间。
- 同步任务提交后,您可在“实时同步管理”页面,查看并管理自己的任务。
- 您可查看任务提交后的状态,状态请参见任务状态说明。
- 在任务列表的右上角,单击刷新列表,可查看到最新的任务状态。
- 对于未启动、状态为配置中的任务,DRS默认保留3天,超过3天DRS会自动删除后台资源,当前任务状态不变。当用户再次配置时,DRS会重新申请资源,此时DRS任务IP会发生改变。