更新时间:2025-07-24 GMT+08:00

创建血缘采集任务

前提条件

已完成元数据采集

操作步骤

  1. 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目
  2. 在左侧导航栏选择“大数据迁移准备”,进入大数据迁移准备页面。
  3. 选择元数据管理,在大数据血缘分析页签,单击“创建血缘采集任务”,弹出创建血缘采集任务窗口。

    图1 创建血缘采集任务

  4. 根据实际作业类型,选择文件类型并配置对应参数。

    文件类型

    参数

    配置说明

    血缘模板

    文件

    将血缘模板下载到本地,并填写模板内的参数。模板中单元格不允许存在公式,否则会导致解析失败。其中,如下参数值为必填字段:
    • 目标数据库(TargetDataset):血缘采集的目标数据库名称,长度不超过128字符。
    • 目标表(TargetTable):血缘采集的目标表名称,长度不超过256字符。
    • 目标连接名称(TargetConnectionName):血缘采集的目标数据库连接名称,长度不超过255字符。
    • 目标组件类型(TargetComponentType):血缘采集的目标组件类型,只支持HiveSQL和MaxCompute。
    • 上游数据库(SourceDataset):血缘采集的目标表的上游数据库名称,长度不超过128字符。
    • 上游表(SourceTable):血缘采集的目标表的上游表名称,长度不超过256字符。
    • 上游连接名称(SourceConnectionName):血缘采集的目标表的上游数据库连接名称,长度不超过255字符。
    • 上游组件类型(SourceComponentType):血缘采集的目标表的上游组件类型,只支持HiveSQL和MaxCompute。
    • 作业名称(JobName):DataArts或DataWorks的作业名称。

    非必填字段:

    • 作业ID(JobId):DataArts或DataWorks的作业ID。如果是DataArts作业ID,可在 DataArts的作业开发页面,选择对应作业,单击鼠标右键并复制其ID。

    • 作业类型(JobType):DataArts或DataWorks的作业类型。如果为DataArts作业类型,可以是MRS Hive SQL,MRS Presto SQL,MRS Spark SQL。
    • 作业周期(JobCron):作业的执行周期,Cron表达式。
    • 作业空间(JobWorkspace):作业的工作空间,一个基本单元,用于管理任务、成员、角色和权限。所有开发工作都在工作空间内完成,一个工作空间可以创建多个类型的数据源。
    模板参数填写完成并保存后,单击窗口的“添加文件”,将填写后的模板文件上传至迁移中心。
    注意:
    • 只能上传.xlsx文件,且模板文件行数不能超过300,000行,大小不能超过50 M。
    • 新增元数据连接上限1000。
    • 单个表上游表数目不超过1000。
    • 选择血缘模板
      1. 单击“模板下载”,将血缘模板下载到本地。
      2. 打开血缘模板,填写模板内的参数。其中,如下参数值为必填字段。
        • 目标数据库(TargetDataset)
        • 目标表(TargetTable)
        • 目标连接名称(TargetConnectionName)
        • 目标组件类型(TargetComponentType)
        • 上游数据库(SourceDataset)
        • 上游表(SourceTable)
        • 上游连接名称(SourceConnectionName)
        • 上游组件类型(SourceComponentType)
        • 作业名称(JobName)
        • 模板中目标组件类型上游组件类型支持的类型包括HiveSQLMaxCompute
        • 模板中单元格不允许存在公式,否则会导致解析失败。
      3. 模板参数填写完成并保存后,单击窗口的“添加文件”,将填写后的模板文件上传至迁移中心。

        文件大小不能超过50 MB。

  5. 单击“确认”,创建血缘采集任务完成。系统自动开始进行血缘采集。在大数据血缘分析页签,单击血缘采集任务名称或操作列的“查看”,可以查看任务详情页面。
  6. 当任务状态为“已完成”时,单击任务列表上方的“查看血缘”按钮,可以查看血缘关系图