更新时间:2025-09-09 GMT+08:00

Oracle同步到StarRocks作业配置(内测)

支持的源端和目的端数据库版本

表1 支持的数据库版本

源端数据库

目的端数据库

Oracle数据库(10、11、12、19版本)

StarRocks(1.x、2.x)

数据库账号权限要求

在使用Migration进行同步时,源端和目的端所使用的数据库账号需要满足以下权限要求,才能启动实时同步任务。不同类型的同步任务,需要的账号权限也不同,详细可参考下表进行赋权。

表2 数据库账号权限

类型名称

权限要求

源数据库连接账号

Oracle 库需要开启归档日志,同时需表查询权限和日志解析权限,开通对应权限详情请参考Oracle数据源如何开通归档日志、查询权限和日志解析权限?

目标数据库连接账号

目标数据库的每张表必须具有如下权限:LOAD 、SELECT、CREATE、ALTER、DROP。

  • 建议创建单独用于Migration任务连接的数据库账号,避免因为数据库账号密码修改,导致的任务连接失败。
  • 连接源和目标数据库的账号密码修改后,请同步修改管理中心对应的连接信息,避免任务连接失败后自动重试,导致数据库账号被锁定影响使用。

支持的同步对象范围

在使用Migration进行同步时,不同类型的链路,支持的同步对象范围不同,详细情况可参考下表。

表3 同步对象范围

类型名称

使用须知

同步对象范围

  • 支持同步的DML:包括INSERT、UPDATE、DELETE。
  • 支持同步的DDL:新增列。
  • 仅支持同步主键表。
  • 不支持视图、外键、存储过程、触发器、函数、事件、虚拟列、唯一约束、唯一索引、外键索引、Check约束的同步。
  • 自动建表支持同步表结构、普通索引、约束(主键、空、非空)、注释。

注意事项

除了数据源版本、连接账号权限及同步对象范围外,您还需要注意的事项请参见下表。

表4 注意事项

类型名称

使用和操作限制

数据库限制

  • 源端数据库中的库名、表名、字段名不能包含:.-以及非ASCII字符,建议尽量使用常规字符避免任务失败。
  • 目的端数据库中的对象名需要满足约束:
    • 表名长度不超过64个字符,以字母开头,中间字符可以是字母、数字、下划线、中划线。
    • 字段名长度不超过255个字符,建议使用常规字符,不能包含中文等特殊字符。

使用限制

通用:

  • 实时同步过程中,不支持IP、端口、账号、密码修改。
  • Oracle归档日志建议保留3天以上,否则可能因无法获取日志导致任务失败,特殊情况可能导致数据不一致或者丢失。
  • 禁止对Oracle源库做resetlogs操作,否则会导致数据无法同步且任务无法恢复。
  • 不支持修改源数据库Oracle用户名(SCHEMA名),包括11.2.0.2之前版本通过修改USER$字典表方式及11.2.0.2之后通过ALTER USER username RENAME TO new_username修改SCHEMA名称的场景。
  • Oracle为源端时,暂不支持迁移CLOB、NCLOB和BLOB类型。
  • Oracle为源端时,暂不支持Oracle RAC集群。
  • Oracle为源端时,支持连接单实例的oracle备库,不支持RAC集群备库,备库读取时只支持读取archive log,不支持读取standby log。连接备库时建议oracle 设置定时归档,减少数据同步时延。
  • 网络带宽建议大于100M/s。

全量同步阶段:

  • 任务启动和全量数据同步阶段,请不要在源数据库执行DDL操作,否则可能导致任务异常。
  • 当Oracle作为源端进行全量+增量迁移时,需要确保Hudi表数据已经清空,否则全量数据可能无法写入Hudi表。

增量同步阶段:

  • 支持DML:包括INSERT、UPDATE、DELETE。
  • 支持的DDL:新增列。
  • 不支持混合分区表。混合分区表中的外部分区数据变更不产生DML日志,增量数据同步时无法获取变更信息,会存在数据不一致的风险。
  • 表名和列名长度限制为30个字符。Oracle日志读取采用Oracle logminer,logminer限制了表名和列名在30个字符以内,详情请参见LogMiner分析日志相关介绍
  • 增量启动时,选择时间位点启动,请确保oracle数据库时区和数据库所在主机时区一致,才能保证增量位点的准确性。
  • 增量同步不支持Oracle上的分布式事务(XA事务)和PARALLEL DML。
  • 增量阶段不支持Oracle字符集扩展的字符,标准字符集无法解析Oracle自定义扩展字符。
  • 增量同步不支持同步或迁移触发器,需要关闭目标Oracle的触发器。
  • 增量同步不支持同步或迁移存在外键约束的数据。
  • 增量同步不支持同步或迁移使用Oracle Data Pump向源库导入的数据。

常见故障排查:

在任务创建、启动、全量同步、增量同步、结束等过程中,如有遇到问题,可先参考常见问题章节进行排查。

其他限制

  • Oracle中表结构长度(所有列长字节数之和,char、varchar2等类型字节长度和编码有关)超过65535时,可能导致同步失败。
  • 当使用PDB数据库同步时,由于Oracle LogMiner组件的限制,增量同步时必须打开全部PDB。
  • Oracle 12.2及以上版本,由于Oracle LogMiner组件的限制,增量同步不支持表名或列名超过30个字符。
  • Oracle为源端时全量+增量或增量作业,如果需要同步PDB库中的表,Oracle连接中需要填写CDB库的用户名和密码,不能为PDB用户名和密码,因为Oracle日志统一在存储在CDB库中,同时Oracle logminer只能运行在CDB库中。
  • DDL删除表时需执行“drop table test_table_name purge命令”。

    Oracle数据库默认删除表是一个高危操作,执行"drop table test_table_name"命令时, Oracle会将该命令转换为“rename table test_table_name as xxxxx”, 即将该表重新命名为Oracle临时表空间中的一张待处理表,原表实际并未删除,migration默认直接忽略该语法;Oracle删除表语句"drop table test_table_name purge"会彻底删除表,migration会自动识别删除表并下发给下游。

  • 全量和增量同步不支持隐藏列(UNUSED, INVISIBLE)。
  • 不支持无主键表。
  • 不支持DCL操作。
  • 不支持同步或迁移连续的RENAME TABLE操作,否则可能会导致任务失败。
  • 不支持同步或迁移全局临时表(任务正常运行)。
  • 不支持同步或迁移含有默认值函数的表,否则会导致数据不一致。
  • 不支持同步或迁移默认值中含有表达式的表。
  • 不支持同步或迁移外部表。
  • 不支持同步或迁移计算列、加密列。
  • 不支持同步或迁移虚拟私有数据库(Virtual Private Database, VPD)。
  • 不支持同步或迁移dbms_scheduler和dbms_job创建的job。
  • 不支持同步或迁移Schema名称的变更操作。
  • 不支持同步或迁移嵌套表,否则会导致任务报错。
  • 不支持同步或迁移物化视图(Materialized View)。
  • 不支持同步或迁移包含关键字或者特殊字符的属性名的DDL操作。
  • 不支持ROWID变更操作(例如split partition、table move、table shrink、move partition key),否则可能会导致数据不一致或任务失败。
  • 不支持Secure Sockets Layer(SSL)加密传输模式。
  • 不支持Oracle Label Security模式。
  • StarRocks不能用字符串类型作为主键,包括联合主键其中一个字段为字符串类型也不行。

操作步骤

本小节以Oracle到StarRocks的实时同步为示例,介绍如何配置Migration实时集成作业。配置作业前请务必阅读使用前自检概览, 确认已做好所有准备工作。

  1. 参见新建实时集成作业创建一个实时集成作业并进入作业配置界面。
  2. 选择数据连接类型:源端选Oracle,目的端选StarRocks。

    图1 选择数据连接类型

  3. 选择集成作业类型:同步类型默认为实时,同步场景包含整库场景。

    图2 选择集成作业类型

    同步场景相关介绍请参见同步场景

  4. 配置网络资源:选择已创建的Oracle、StarRocks数据连接和已配置好网络连接的migration资源组。

    图3 选择数据连接及migration资源组

    无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见配置DataArts Studio数据连接参数进行配置。

    无可选migration资源组时,可单击“新建”跳转至购买migration资源组页面创建migration资源组配置,详情请参见购买创建数据集成资源组增量包进行配置。

  5. 检测网络连通性:数据连接和migration资源组配置完成后需要测试整个迁移任务的网络连通性,可通过以下方式进行数据源和migration资源组之间的连通性测试。

    • 单击展开“源端配置”触发连通性测试,会对整个迁移任务的连通性做校验。
    • 单击源端和目的端数据源和migration资源组中的“测试”按钮进行检测。

      网络连通性检测异常可先参考数据源和资源组网络不通如何排查?章节进行排查。

  6. 配置源端参数。

    选择需要迁移的Oracle库表。
    图4 选择库表

    库与表均支持自定义选择,即可选择一库一表,也可选择多库多表。

  7. 配置目的端参数。

    • 源库表和目标匹配策略。
      • 库匹配策略。
        • 与来源库同名:数据将同步至与来源Oracle库名相同的StarRocks库中。
        • 自定义:数据将同步至自行指定的StarRocks库中。
      • 表匹配策略。
        • 与来源表同名:数据将同步至与来源Oracle表名相同的StarRocks表中。
        • 自定义:数据将同步至自行指定的StarRocks表中。
          图5 整库场景下源库表和目标匹配策略

          自定义匹配策略时,支持用内置变量#{source_db_name}和#{source_table_name}标志来源的库名和表名,其中表匹配策略必须包含#{source_table_name}。

    • StarRocks参数配置。

      高级配置:支持通过参数配置部分高级功能,参数详情可参考下表。

      表5 StarRocks高级配置一览表

      参数名

      参数类型

      默认值

      单位

      配置说明

      sink.batch.size

      -

      20000条

      单批次写入StarRocks数据的最大条数。

      sink.max-retries

      -

      3次

      数据库写入失败时的最大重试次数。

      sink.batch.interval

      -

      1

      每批次数据写入StarRocks的时间间隔。

      sink.enable-delete

      -

      true

      -

      是否启用删除功能。

      sink.batch.bytes

      -

      10

      MB

      写入、写入或更新、以及删除的最大字节数。

  8. 刷新源表和目标表映射,检查映射关系是否正确,同时可根据需求修改表属性、添加附加字段,并通过“自动建表”能力在目的端Hudi数据库中建出相应的表。

    图6 源表与目标表映射
    • 附加字段编辑:单击操作列“附加字段编辑”可为目的端的StarRocks表中增加自定义字段,同时附加字段也会额外加入到StarRocks表的建表中。用户可以在已有的源表字段基础上添加多个附加字段,并自定义字段名、选择字段类型、填写字段值。
      • 字段名称:目的端StarRocks表新增字段的名称。
      • 字段类型:目的端StarRocks表新增字段的类型。
      • 字段值:目的端StarRocks表新增字段的取值来源。
        表6 附加字段取值方式

        类型

        示例

        常量

        任意字符

        内置变量

        • 源端host ip地址:source.host。
        • 源端schema名称:source.schema。
        • 源端table名称:source.table。
        • 目的端schema名称:target.schema。
        • 目的端table名称:target.table。

        源表字段

        源表中的任一字段。

        配置附加字段的取值来源于源表字段时,请注意任务运行过程中不能修改对应源表字段的名称,否则可能导致作业异常。

        udf方法

        • substring(#col, pos[, len]): 截取源端col列的子串, 范围在[pos, pos+len)。
        • date_format(#col, time_format[, src_tz, dst_tz]): 将源端col列按time_format格式化, 可选转换时区。
        • now([tz]): 获取指定时区的当前时间。
        • if(cond_exp, str1, str2): 满足条件表达式cond_exp时返回str1, 否则返回str2。
        • concat(#col[, #str, ...]): 拼接多个参数, 可为源端列或字符串。
        • from_unixtime(#col[, time_format]): 将unix时间戳按time_format格式化。
        • unix_timestamp(#col[, precision, time_format]): 将时间转成unix时间戳, 可显式定义时间格式及转换后精度。
    • 自动建表:单击“自动建表”可按照已配置映射规则在目的端数据库自动建表,成功后表建立方式会显示为使用已有表。
      • Migration仅支持自动建表,不支持自动建库和模式,需用户自行在目的端手动建出库和模式后再使用本功能建表。
      • 自动建表时对应的字段类型映射关系请参见字段映射关系章节。

  9. 配置任务属性。

    表7 任务配置参数说明

    参数

    说明

    默认值

    执行内存

    作业执行分配内存,跟随处理器核数变化而自动变化。

    8GB

    处理器核数

    范围:2-32。

    每增加1处理核数,则自动增加4G执行内存和1并发数。

    2

    并发数

    作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。

    1

    自动重试

    作业失败时是否开启自动重试。

    最大重试次数

    “自动重试”为是时显示该参数。

    1

    重试间隔时间

    “自动重试”为是时显示该参数。

    120秒

    是否写入脏数据

    选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。

    • 否:默认为否,不记录脏数据。

      表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。

    • 是:允许脏数据,即任务产生脏数据时不影响任务执行。
      允许脏数据并设置其阈值时:
      • 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。
      • 若产生的脏数据超出阈值范围,同步任务将失败退出。
        说明:

        脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据;单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。

        例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时,配置同步过程中是否写入脏数据,配置脏数据条数(单个分片的最大错误记录数)保证任务运行,即当脏数据超过指定条数时,任务失败退出。

    脏数据策略

    “是否写入脏数据”为是时显示该参数,当前支持以下策略:

    • 不归档:不对脏数据进行存储,仅记录到任务日志中。
    • 归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。

    不归档

    脏数据写入连接

    “脏数据策略”选择归档到OBS时显示该参数。

    脏数据要写入的连接,目前只支持写入到OBS连接。

    -

    脏数据目录

    脏数据写入的OBS目录。

    -

    脏数据阈值

    是否写入脏数据为是时显示该参数。

    用户根据实际设置脏数据阈值。

    说明:
    • 脏数据阈值仅针对每个并发生效。比如阈值为100,并发为3,则该作业可容忍的脏数据条数最多为300。
    • 输入-1表示不限制脏数据条数。

    100

    添加自定义属性

    支持通过自定义属性修改部分作业参数及开启部分高级功能,详情可参见任务性能调优章节。

    -

  10. 提交并运行任务。

    作业配置完毕后,单击作业开发页面左上角“提交”,完成作业提交。

    图7 提交作业

    提交成功后,单击作业开发页面“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。

    图8 启动配置
    表8 启动配置参数

    参数

    说明

    同步模式

    • 增量同步:从指定时间位点开始同步增量数据。
    • 全量+增量:先同步全量数据,随后实时同步增量数据。

    时间

    增量同步需要设置该参数,指示增量同步起始的时间位点。

    说明:

    配置的位点时间早于CDC日志最早时间点时,默认会以日志最新时间点开始消费。

  11. 监控作业。

    通过单击作业开发页面导航栏的“前往监控”按钮,可前往作业监控页面查看运行情况、监控日志等信息,并配置对应的告警规则,详情请参见实时集成任务运维

    图9 前往监控

性能调优

若链路同步速度过慢,可参考参见任务性能调优章节中对应链路文档进行排查及处理。