Oracle同步到DWS作业配置

支持的源端和目的端数据库版本

表1 支持的数据库版本
源端数据库	目的端数据库
Oracle数据库（10、11、12、19版本）	DWS集群（8.1.3、8.2.0及以上版本（除DWS 3.0））

数据库账号权限要求

在使用Migration进行同步时，源端和目的端所使用的数据库账号需要满足以下权限要求，才能启动实时同步任务。不同类型的同步任务，需要的账号权限也不同，详细可参考下表进行赋权。

表2 数据库账号权限
类型名称	权限要求
源数据库连接账号	Oracle 库需要开启归档日志，同时需表查询权限和日志解析权限，开通对应权限详情请参考Oracle数据源如何开通归档日志、查询权限和日志解析权限？。
目标数据库连接账号	目标数据库的每张表必须具有如下权限：INSERT、SELECT、UPDATE、DELETE、CONNECT、CREATE。

建议创建单独用于Migration任务连接的数据库账号，避免因为数据库账号密码修改，导致的任务连接失败。
连接源和目标数据库的账号密码修改后，请同步修改管理中心对应的连接信息，避免任务连接失败后自动重试，导致数据库账号被锁定影响使用。

支持的同步对象范围

在使用Migration进行同步时，不同类型的链路，支持的同步对象范围不同，详细情况可参考下表。

表3 同步对象范围
类型名称	使用须知
同步对象范围	支持同步的DML：包括INSERT、UPDATE、DELETE。支持同步的DDL：新增列，其余DDL暂时不支持，如删除列，删除分区等。仅支持同步有主键表。不支持同步视图、外键、存储过程、触发器、函数、事件、虚拟列、唯一约束和唯一索引。自动建表支持同步表结构、普通索引、约束（主键、空、非空）、注释。

注意事项

除了数据源版本、连接账号权限及同步对象范围外，您还需要注意的事项请参见下表。

表4 注意事项
类型名称	使用和操作限制
数据库限制	源端数据库中的库名、表名、字段名不能包含：.-以及非ASCII字符，建议尽量使用常规字符避免任务失败。目的端数据库中的对象名需要满足约束：长度不超过63个字符，以字母或下划线开头，中间字符可以是字母、数字、下划线、$。
使用限制	通用：实时同步过程中，不支持IP、端口、账号、密码修改。 Oracle归档日志建议保留3天以上，否则可能因无法获取日志导致任务失败，特殊情况可能导致数据不一致或者丢失。禁止对Oracle源库做resetlogs操作，否则会导致数据无法同步且任务无法恢复。不支持修改源数据库Oracle用户名（SCHEMA名），包括11.2.0.2之前版本通过修改USER$字典表方式及11.2.0.2之后通过ALTER USER username RENAME TO new_username修改SCHEMA名称的场景。 Oracle为源端时，暂不支持迁移CLOB、NCLOB和BLOB类型。 Oracle为源端时，暂不支持Oracle RAC集群。 Oracle为源端时，支持连接单实例的oracle备库，不支持RAC集群备库，备库读取时只支持读取archive log，不支持读取standby log。连接备库时建议oracle 设置定时归档，减少数据同步时延。网络带宽建议大于100M/s。全量同步阶段：任务启动和全量数据同步阶段，请不要在源数据库执行DDL操作，否则可能导致任务异常。增量同步阶段：支持DML：包括INSERT、UPDATE、DELETE。支持的DDL：新增列，其余DDL暂时不支持，如删除列，删除分区等。不支持混合分区表。混合分区表中的外部分区数据变更不产生DML日志，增量数据同步时无法获取变更信息，会存在数据不一致的风险。表名和列名长度限制为30个字符。Oracle日志读取采用Oracle logminer，logminer限制了表名和列名在30个字符以内，详情请参见LogMiner分析日志相关介绍。增量启动时，选择时间位点启动，请确保oracle数据库时区和数据库所在主机时区一致，才能保证增量位点的准确性。增量同步不支持Oracle上的分布式事务（XA事务）和PARALLEL DML。增量阶段不支持Oracle字符集扩展的字符，标准字符集无法解析Oracle自定义扩展字符。增量同步不支持同步或迁移触发器，需要关闭目标Oracle的触发器。增量同步不支持同步或迁移存在外键约束的数据。增量同步不支持同步或迁移使用Oracle Data Pump向源库导入的数据。常见故障排查：在任务创建、启动、全量同步、增量同步、结束等过程中，如有遇到问题，可先参考常见问题章节进行排查。
其他限制	支持目标数据库中的表比源数据库多列场景，但是需要避免以下场景可能导致的任务失败。目标数据库多的列要求非空且没有默认值，源数据库insert数据，同步到目标数据库后多的列为null，不符合目标数据库要求。目标数据库多的列设置固定默认值，且有唯一约束。源数据库insert多条数据后，同步到目标数据库后多的列为固定默认值，不符合目标数据库要求。 Migration自动建表时，源库中char、varchar、nvarchar、enum、set字符类型长度在目标库会按照字节长自动扩大（因为DWS目标库为字节长）。 Oracle为源端时全量+增量或增量作业，如果需要同步PDB库中的表，Oracle连接中需要填写CDB库的用户名和密码，不能为PDB用户名和密码，因为Oracle日志统一在存储在CDB库中，同时Oracle logminer只能运行在CDB库中。 DDL删除表时需执行“drop table test_table_name purge命令”。 Oracle数据库默认删除表是一个高危操作，执行"drop table test_table_name"命令时, Oracle会将该命令转换为“rename table test_table_name as xxxxx”, 即将该表重新命名为Oracle临时表空间中的一张待处理表，原表实际并未删除，migration默认直接忽略该语法；Oracle删除表语句"drop table test_table_name purge"会彻底删除表，migration会自动识别删除表并下发给下游。全量和增量同步不支持隐藏列（UNUSED, INVISIBLE）。当使用PDB数据库同步时，由于Oracle LogMiner组件的限制，增量同步时必须打开全部PDB。不支持无主键表。不支持DCL操作。不支持同步或迁移连续的RENAME TABLE操作，否则可能会导致任务失败。不支持同步或迁移全局临时表（任务正常运行）。不支持同步或迁移含有默认值函数的表，否则会导致数据不一致。不支持同步或迁移默认值中含有表达式的表。不支持同步或迁移外部表。不支持同步或迁移计算列、加密列。不支持同步或迁移虚拟私有数据库（Virtual Private Database, VPD）。不支持同步或迁移dbms_scheduler和dbms_job创建的job。不支持同步或迁移Schema名称的变更操作。不支持同步或迁移嵌套表，否则会导致任务报错。不支持同步或迁移物化视图（Materialized View）。不支持同步或迁移包含关键字或者特殊字符的属性名的DDL操作。不支持ROWID变更操作（例如split partition、table move、table shrink、move partition key），否则可能会导致数据不一致或任务失败。不支持Secure Sockets Layer（SSL）加密传输模式。不支持Oracle Label Security模式。

操作步骤

本小节以Oracle到DWS的实时同步为示例，介绍如何配置Migration实时集成作业。配置作业前请务必阅读使用前自检概览，确认已做好所有准备工作。

参见新建实时集成作业创建一个实时集成作业并进入作业配置界面。
选择数据连接类型：源端选Oracle，目的端选DWS。

图1 选择数据连接类型
选择集成作业类型：同步类型默认为实时，同步场景包含整库场景。

图2 选择集成作业类型

同步场景相关介绍请参见同步场景。
配置网络资源：选择已创建的Oracle、DWS数据连接和已配置好网络连接的migration资源组。

图3 选择数据连接及migration资源组

无可选数据连接时，可单击“新建”跳转至管理中心数据连接界面，单击“创建数据连接”创建数据连接，详情请参见配置DataArts Studio数据连接参数进行配置。

无可选migration资源组时，可单击“新建”跳转至购买migration资源组页面创建migration资源组配置，详情请参见购买创建数据集成资源组增量包进行配置。
检测网络连通性：数据连接和migration资源组配置完成后需要测试整个迁移任务的网络连通性，可通过以下方式进行数据源和migration资源组之间的连通性测试。
- 单击展开“源端配置”触发连通性测试，会对整个迁移任务的连通性做校验。
- 单击源端和目的端数据源和migration资源组中的“测试”按钮进行检测。
  
  网络连通性检测异常可先参考数据源和资源组网络不通如何排查？章节进行排查。

配置源端参数。

各同步场景下选择需要同步库表的方式请参考下表。

表5 选择需要同步的库表
同步场景	配置方式
整库	选择需要迁移的Oracle库表。图4 选择库表库与表均支持自定义选择，即可选择一库一表，也可选择多库多表。

配置目的端参数。

源库表和目标匹配策略。

各同步场景下源端库表和目标端库表的匹配策略请参考下表。

表6 源库表和目标匹配策略
同步场景	配置方式
整库	Schema匹配策略。与来源库同名：数据将同步至与来源Oracle库名相同的DWS Schema中。自定义：数据将同步至自行指定的DWS Schema中。表匹配策略。与来源表同名：数据将同步至与来源Oracle表名相同的DWS表中。自定义：数据将同步至自行指定的DWS表中。图5 整库场景下源库表和目标匹配策略说明：自定义匹配策略时，支持用内置变量#{source_db_name}和#{source_table_name}标志来源的库名和表名，其中表匹配策略必须包含#{source_table_name}。

DWS参数配置。

其余DWS目的端参数说明请参考下表。

图6 DWS配置项

表7 DWS配置项
配置项	默认值	单位	配置说明
写入模式	UPSERT	-	UPSERT MODE：批量更新入库模式。 COPY MODE：DWS专有的高性能批量入库模式。
批写最大数据量	50000	条	单批次写入DWS数据的条数，可根据表数据大小和作业内存使用适当调整。
定时批写时间间隔	3	秒	支持配置每批次数据写入DWS的时间间隔。
高级配置	-	-	通过配置各参数实现部分高级功能。单击高级配置下的“查看编辑”，可在“表属性全局配置”对话框配置以下参数：存储模式：指定自动建表中数据的存储方式，支持行模式和列模式。存储版本：存储模式为列模式时显示该参数，指定列存存储格式的版本。支持以下格式： DEFAULT：不设置colversion参数，使用DWS默认配置。 1.0：设置colversion=1.0，适用于8.1.0及以下DWS集群。 2.0：设置colversion=2.0，适用于8.1.1及以上DWS集群。 3.0：设置colversion=3.0，适用于9.0.X及以上版本，3.0版本为存算分离版本，默认创建列存表，存储模式配置不生效。是否压缩：存储模式为列模式时显示该参数，指定自动建表中数据是否压缩。扩大字符字段长度：当自动创建目的表时，目标表的字符类型字段长度设置为源表相应字段长度的4倍。如果源数据库与目标数据库字符编码不一样，且源表字符类型字段与目的表一样，在迁移数据时可能会有长度不足错误。默认勾选。使用非空约束：当自动创建目的表时，如果选择使用非空约束，则目的表字段是否非空约束与原表具有相应非空约束的字段保持一致。默认勾选。表自定义属性：通过自定义参数配置部分功能，参数详情可参考DWS高级配置一览表。

表8 DWS高级配置一览表
参数名	参数类型	默认值	单位	参数说明
sink.buffer-flush.max-size	int	512	MB	写入DWS时每批数据的最大字节数，可根据作业配置内存和数据大小适当调整。
sink.keyby.enable	boolean	true	-	数据分流开关，在多并发场景下开启数据分流可将数据按规则分配给不同的工作进程写入目的端，可提高写入性能。
sink.keyby.mode	string	table	-	数据分流模式，可选填写： pk：按数据主键值进行分流。 table：按表名进行分流。说明：多并发场景下，若开启DDL功能，只能按表名分流，否则可能导致数据不一致。确保不会有DDL时，可以选择按主键分流，多并发场景下可提高写入性能。
sink.field.name.case-sensitive	boolean	true	-	同步数据大小写敏感开关，开启后在同步数据时对库名、表名、字段名大小写均敏感。
sink.verify.column-number	boolean	false	-	校验数据列数的开关，链路默认以同名映射方式同步数据，不检验是否所有列均同步。开启本开关后，若源端与目的端列数不同将认为是数据不一致的场景，导致作业异常。
sink.server.timezone	string	本地时区	-	连接目的端数据库时指定的session时区，支持时区标准写法，例如UTC+8等。
logical.delete.enabled	boolean	false	-	逻辑删除开关，开启本开关后，需要目的端包含删除标记列，在源端删除数据，不会将目的端对应的数据删除，而是将删除标记列设为true，表示该数据在源端已不存在。
logical.delete.column	string	logical_is_deleted	-	逻辑删除标记列名称，默认为logical_is_deleted，支持用户自定义。
sink.ddl.isCreateIndex	string	true	-	同步源端索引开关，开启后在自动建表时会同步源端的索引。
exclude.extend.char.length.field.type	string	-	-	指定不需要扩展的字段类型，多个字段类型使用逗号分隔。说明：须确保已勾选DWS配置项中的扩大字符字段长度使该参数生效。
exclude.extend.char.length.field.name	string	-	-	指定不需要扩展的字段名，多个字段名使用逗号分隔。说明：须确保已勾选DWS配置项中的扩大字符字段长度使该参数生效。

刷新源表和目标表映射，检查映射关系是否正确，同时可根据需求修改表属性、添加附加字段，并通过“自动建表”能力在目的端DWS数据库中建出相应的表。

图7 源表与目标表映射
- 附加字段编辑：单击操作列“附加字段编辑”可为目的端的DWS表中增加自定义字段，同时附加字段也会额外加入到DWS表的建表中。用户可以在已有的源表字段基础上添加多个附加字段，并自定义字段名、选择字段类型、填写字段值。
  - 字段名称：目的端DWS表新增字段的名称。
  - 字段类型：目的端DWS表新增字段的类型。
  - 字段值：目的端DWS表新增字段的取值来源。
    
    表9 附加字段取值方式
    
    类型
    
    示例
    
    常量
    
    支持数字、字母、中文、特殊字符。彩色表情字符可能导致作业提交失败，需谨慎使用。
- 自动建表：单击“自动建表”可按照已配置映射规则在目的端数据库自动建表，成功后表建立方式会显示为使用已有表。
  图8 自动建表
  - Migration仅支持自动建表，不支持自动建库和模式，需用户自行在目的端手动建出库和模式后再使用本功能建表。
  - 自动建表时对应的字段类型映射关系请参见字段映射关系章节。
配置DDL消息处理规则。

实时集成作业除了能够同步对数据的增删改等DML操作外，也支持对部分表结构变化（DDL）进行同步。针对支持的DDL操作，用户可根据实际需求配置为正常处理/忽略/出错。
- 正常处理：Migration识别到源端库表出现该DDL动作时，作业自动同步到目的端执行该DDL操作。
- 忽略：Migration识别到源端库表出现该DDL动作时，作业忽略该DDL，不同步到目的端表中。
- 出错：Migration识别到源端库表出现该DDL动作时，作业抛出异常。
  图9 DDL配置

表9 附加字段取值方式
类型	示例
常量	支持数字、字母、中文、特殊字符。彩色表情字符可能导致作业提交失败，需谨慎使用。

配置任务属性。

**表10** 任务配置参数说明
参数	说明	默认值
执行内存	作业执行分配内存，跟随处理器核数变化而自动变化。	8GB
处理器核数	范围：2-32。每增加1处理核数，则自动增加4G执行内存和1并发数。	2
并发数	作业执行支持并发数。该参数无需配置，跟随处理器核数变化而自动变化。	1
自动重试	作业失败时是否开启自动重试。	否
最大重试次数	“自动重试”为是时显示该参数。	1
重试间隔时间	“自动重试”为是时显示该参数。	120秒
是否写入脏数据	选择是否记录脏数据，默认不记录脏数据，当脏数据过多时，会影响同步任务的整体同步速度。否：默认为否，不记录脏数据。表示不允许脏数据存在。如果同步过程中产生脏数据，任务将失败退出。是：允许脏数据，即任务产生脏数据时不影响任务执行。允许脏数据并设置其阈值时：若产生的脏数据在阈值范围内，同步任务将忽略脏数据（即不会写入目标端），并正常执行。若产生的脏数据超出阈值范围，同步任务将失败退出。说明：脏数据认定标准：脏数据是对业务没有意义，格式非法或者同步过程中出现问题的数据；单条数据写入目标数据源过程中发生了异常，则此条数据为脏数据。因此只要是写入失败的数据均被归类于脏数据。例如，源端是VARCHAR类型的数据写到INT类型的目标列中，则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时，配置同步过程中是否写入脏数据，配置脏数据条数（单个分片的最大错误记录数）保证任务运行，即当脏数据超过指定条数时，任务失败退出。	否
脏数据策略	“是否写入脏数据”为是时显示该参数，当前支持以下策略：不归档：不对脏数据进行存储，仅记录到任务日志中。归档到OBS：将脏数据存储到OBS中，并打印到任务日志中。	不归档
脏数据写入连接	“脏数据策略”选择归档到OBS时显示该参数。脏数据要写入的连接，目前只支持写入到OBS连接。	-
脏数据目录	脏数据写入的OBS目录。	-
脏数据阈值	是否写入脏数据为是时显示该参数。用户根据实际设置脏数据阈值。说明：脏数据阈值仅针对每个并发生效。比如阈值为100，并发为3，则该作业可容忍的脏数据条数最多为300。输入-1表示不限制脏数据条数。	100
添加自定义属性	支持通过自定义属性修改部分作业参数及开启部分高级功能，详情可参见任务性能调优章节。	-

提交并运行任务。

作业配置完毕后，单击作业开发页面左上角“提交”，完成作业提交。

图10 提交作业
点击放大

提交成功后，单击作业开发页面“启动”按钮，在弹出的启动配置对话框按照实际情况配置同步位点参数，单击“确定”启动作业。

图11 启动配置
点击放大

**表11** 启动配置参数
参数	说明
同步模式	增量同步：从指定时间位点开始同步增量数据。全量+增量：先同步全量数据，随后实时同步增量数据。
时间	增量同步需要设置该参数，指示增量同步起始的时间位点。说明：配置的位点时间早于Binlog日志最早时间点时，默认会以日志最新时间点开始消费。