更新时间:2025-12-05 GMT+08:00
分享

离线作业概述

背景说明

CDM作业作为华为云上一代的数据集成云服务,曾为用户提供稳定的数据迁移与同步能力。随着数据开发场景的日益复杂和调度规模的不断增长,CDM作业“管理与执行耦合”的架构逐渐暴露出以下痛点:

  • 与数据开发、数据质量等服务割裂,需要手工拼装流程。
  • 单集群瓶颈明显,在大规模并发时段容易出现队列堆积,不支持跨集群执行。
  • 读写两端绑定,不支持读写链路的自由组合。
  • 新功能(如作业调度委托、数据安全加解密等能力)无法在老架构中实现。

新版本的数据集成(离线作业),将作业管理完全上移至数据开发引擎,仅将CDM集群作为可横向扩展的计算资源池,从根本上解决了上述问题。

离线作业核心优势

表1 CDM作业与数据集成(离线作业)对比

维度

CDM作业

数据集成(离线作业)

流程编排

独立任务,需手工串联

拖拽式与数据开发算子同画布运行

功能演进

逐步停止更新

新功能均优先支持数据集成离线作业

调度模式

单集群排队

支持跨多CDM 节点混合调度

读写策略

读写链路绑定

读写分离,支持数据源读写自由组合

该功能当前处于公测阶段(或者受限使用阶段),如需使用请提交工单申请开通。

技术原理简介

  • 管理面:

    作业元数据、调度依赖、参数变量、调度身份等全部托管在数据开发引擎(DataArts Studio)。

  • 执行面:
    1. 解析作业 DAG → 生成可执行的CDM子任务。
    2. 将CDM子任务随机分散至CDM集群上执行。
    3. 子任务结束即刻释放资源,日志,任务监控指标统一回传运维中心。

功能概览

数据集成(离线作业)支持多种数据源、多种场景下的离线数据同步,用户可根据自主需求,支持全量加增量同步。

图1 离线处理集成作业迁移架构图

同步场景

数据集成(离线作业)支持多种拓扑类型的同步场景,用户可根据自身需求进行规划,详细说明可参考以下内容。

  • 单表同步

    支持将源端一个实例下的单张表同步至目的端一个实例下的单张表。

    图2 单表同步原理

  • 整库同步

    支持将源端一个实例下多个库的多张表批量同步到目的端一个实例下的多个库表。

    图3 整库同步原理

  • 分库分表同步
    支持将源端多个实例下多个分库的多张分表同步到目的端一个实例下的单个库表。
    图4 分库分表同步原理

操作视频

因不同版本操作界面可能存在差异,本视频仅供参考,具体以实际环境为准。

相关文档