更新时间:2025-07-24 GMT+08:00
创建血缘采集任务
前提条件
已完成元数据采集。
操作步骤
- 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。
- 在左侧导航栏选择“大数据迁移准备”,进入大数据迁移准备页面。
- 选择元数据管理,在大数据血缘分析页签,单击“创建血缘采集任务”,弹出创建血缘采集任务窗口。
图1 创建血缘采集任务
- 根据实际作业类型,选择文件类型并配置对应参数。
文件类型
参数
配置说明
血缘模板
文件
将血缘模板下载到本地,并填写模板内的参数。模板中单元格不允许存在公式,否则会导致解析失败。其中,如下参数值为必填字段:- 目标数据库(TargetDataset):血缘采集的目标数据库名称,长度不超过128字符。
- 目标表(TargetTable):血缘采集的目标表名称,长度不超过256字符。
- 目标连接名称(TargetConnectionName):血缘采集的目标数据库连接名称,长度不超过255字符。
- 目标组件类型(TargetComponentType):血缘采集的目标组件类型,只支持HiveSQL和MaxCompute。
- 上游数据库(SourceDataset):血缘采集的目标表的上游数据库名称,长度不超过128字符。
- 上游表(SourceTable):血缘采集的目标表的上游表名称,长度不超过256字符。
- 上游连接名称(SourceConnectionName):血缘采集的目标表的上游数据库连接名称,长度不超过255字符。
- 上游组件类型(SourceComponentType):血缘采集的目标表的上游组件类型,只支持HiveSQL和MaxCompute。
- 作业名称(JobName):DataArts或DataWorks的作业名称。
非必填字段:
- 作业ID(JobId):DataArts或DataWorks的作业ID。如果是DataArts作业ID,可在 DataArts的作业开发页面,选择对应作业,单击鼠标右键并复制其ID。
- 作业类型(JobType):DataArts或DataWorks的作业类型。如果为DataArts作业类型,可以是MRS Hive SQL,MRS Presto SQL,MRS Spark SQL。
- 作业周期(JobCron):作业的执行周期,Cron表达式。
- 作业空间(JobWorkspace):作业的工作空间,一个基本单元,用于管理任务、成员、角色和权限。所有开发工作都在工作空间内完成,一个工作空间可以创建多个类型的数据源。
模板参数填写完成并保存后,单击窗口的“添加文件”,将填写后的模板文件上传至迁移中心。注意:- 只能上传.xlsx文件,且模板文件行数不能超过300,000行,大小不能超过50 M。
- 新增元数据连接上限1000。
- 单个表上游表数目不超过1000。
- 选择血缘模板。
- 单击“模板下载”,将血缘模板下载到本地。
- 打开血缘模板,填写模板内的参数。其中,如下参数值为必填字段。
- 目标数据库(TargetDataset)
- 目标表(TargetTable)
- 目标连接名称(TargetConnectionName)
- 目标组件类型(TargetComponentType)
- 上游数据库(SourceDataset)
- 上游表(SourceTable)
- 上游连接名称(SourceConnectionName)
- 上游组件类型(SourceComponentType)
- 作业名称(JobName)
- 模板中目标组件类型和上游组件类型支持的类型包括HiveSQL、MaxCompute。
- 模板中单元格不允许存在公式,否则会导致解析失败。
- 模板参数填写完成并保存后,单击窗口的“添加文件”,将填写后的模板文件上传至迁移中心。
文件大小不能超过50 MB。
- 单击“确认”,创建血缘采集任务完成。系统自动开始进行血缘采集。在大数据血缘分析页签,单击血缘采集任务名称或操作列的“查看”,可以查看任务详情页面。
- 当任务状态为“已完成”时,单击任务列表上方的“查看血缘”按钮,可以查看血缘关系图。