创建血缘采集任务

前提条件

已完成元数据采集。

操作步骤

登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。
在左侧导航栏选择“大数据迁移准备”，进入大数据迁移准备页面。
选择元数据管理，在大数据血缘分析页签，单击“创建血缘采集任务”，弹出创建血缘采集任务窗口。

图1 创建血缘采集任务

根据实际作业类型，选择文件类型并配置对应参数。

文件类型	参数	配置说明
血缘模板	文件	将血缘模板下载到本地，并填写模板内的参数。模板中单元格不允许存在公式，否则会导致解析失败。其中，如下参数值为必填字段：目标数据库(TargetDataset)：血缘采集的目标数据库名称，长度不超过128字符。目标表(TargetTable)：血缘采集的目标表名称，长度不超过256字符。目标连接名称(TargetConnectionName)：血缘采集的目标数据库连接名称，长度不超过255字符。目标组件类型(TargetComponentType)：血缘采集的目标组件类型，只支持HiveSQL和MaxCompute。上游数据库(SourceDataset)：血缘采集的目标表的上游数据库名称，长度不超过128字符。上游表(SourceTable)：血缘采集的目标表的上游表名称，长度不超过256字符。上游连接名称(SourceConnectionName)：血缘采集的目标表的上游数据库连接名称，长度不超过255字符。上游组件类型(SourceComponentType)：血缘采集的目标表的上游组件类型，只支持HiveSQL和MaxCompute。作业名称(JobName)：DataArts或DataWorks的作业名称。非必填字段：作业ID(JobId)：DataArts或DataWorks的作业ID。如果是DataArts作业ID，可在 DataArts的作业开发页面，选择对应作业，单击鼠标右键并复制其ID。作业类型(JobType)：DataArts或DataWorks的作业类型。如果为DataArts作业类型，可以是MRS Hive SQL，MRS Presto SQL，MRS Spark SQL。作业周期(JobCron)：作业的执行周期，Cron表达式。作业空间(JobWorkspace)：作业的工作空间，一个基本单元，用于管理任务、成员、角色和权限。所有开发工作都在工作空间内完成，一个工作空间可以创建多个类型的数据源。模板参数填写完成并保存后，单击窗口的“添加文件”，将填写后的模板文件上传至迁移中心。注意：只能上传.xlsx文件，且模板文件行数不能超过300,000行，大小不能超过50 M。新增元数据连接上限1000。单个表上游表数目不超过1000。

文件类型

参数

配置说明

血缘模板

文件

将血缘模板下载到本地，并填写模板内的参数。模板中单元格不允许存在公式，否则会导致解析失败。其中，如下参数值为必填字段：

目标数据库(TargetDataset)：血缘采集的目标数据库名称，长度不超过128字符。
目标表(TargetTable)：血缘采集的目标表名称，长度不超过256字符。
目标连接名称(TargetConnectionName)：血缘采集的目标数据库连接名称，长度不超过255字符。
目标组件类型(TargetComponentType)：血缘采集的目标组件类型，只支持HiveSQL和MaxCompute。
上游数据库(SourceDataset)：血缘采集的目标表的上游数据库名称，长度不超过128字符。
上游表(SourceTable)：血缘采集的目标表的上游表名称，长度不超过256字符。
上游连接名称(SourceConnectionName)：血缘采集的目标表的上游数据库连接名称，长度不超过255字符。
上游组件类型(SourceComponentType)：血缘采集的目标表的上游组件类型，只支持HiveSQL和MaxCompute。
作业名称(JobName)：DataArts或DataWorks的作业名称。

非必填字段：

作业ID(JobId)：DataArts或DataWorks的作业ID。如果是DataArts作业ID，可在 DataArts的作业开发页面，选择对应作业，单击鼠标右键并复制其ID。
作业类型(JobType)：DataArts或DataWorks的作业类型。如果为DataArts作业类型，可以是MRS Hive SQL，MRS Presto SQL，MRS Spark SQL。
作业周期(JobCron)：作业的执行周期，Cron表达式。
作业空间(JobWorkspace)：作业的工作空间，一个基本单元，用于管理任务、成员、角色和权限。所有开发工作都在工作空间内完成，一个工作空间可以创建多个类型的数据源。

模板参数填写完成并保存后，单击窗口的“添加文件”，将填写后的模板文件上传至迁移中心。

注意：

只能上传.xlsx文件，且模板文件行数不能超过300,000行，大小不能超过50 M。

新增元数据连接上限1000。

单个表上游表数目不超过1000。

选择血缘模板。
1. 单击“模板下载”，将血缘模板下载到本地。
2. 打开血缘模板，填写模板内的参数。其中，如下参数值为必填字段。
  - 目标数据库(TargetDataset)
  - 目标表(TargetTable)
  - 目标连接名称(TargetConnectionName)
  - 目标组件类型(TargetComponentType)
  - 上游数据库(SourceDataset)
  - 上游表(SourceTable)
  - 上游连接名称(SourceConnectionName)
  - 上游组件类型(SourceComponentType)
  - 作业名称(JobName)
  - 模板中目标组件类型和上游组件类型支持的类型包括HiveSQL、MaxCompute。
  - 模板中单元格不允许存在公式，否则会导致解析失败。
3. 模板参数填写完成并保存后，单击窗口的“添加文件”，将填写后的模板文件上传至迁移中心。
  
  文件大小不能超过50 MB。

单击“确认”，创建血缘采集任务完成。系统自动开始进行血缘采集。在大数据血缘分析页签，单击血缘采集任务名称或操作列的“查看”，可以查看任务详情页面。
当任务状态为“已完成”时，单击任务列表上方的“查看血缘”按钮，可以查看血缘关系图。

父主题：血缘采集

上一篇：血缘采集概述

下一篇：查看血缘关系

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消