数据血缘方案简介

大数据时代，数据爆发性增长，海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息，通过联姻融合、转换变换、流转流通，又生成新的数据，汇聚成数据的海洋。

数据的产生、加工融合、流转流通，到最终消亡，数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系，称之为数据的血缘关系。与人类社会中的血缘关系不同，数据的血缘关系还包含了一些特有的特征：

DataArts Studio生成的血缘关系图如图1所示，

为数据表对象，

为作业节点对象，通过对象和箭头的编排表示血缘信息。从血缘关系图中可以看到，wk_02表数据是由wk_01表数据经过hive_1作业节点加工而生成的，wk_02表数据经由hive_2作业节点加工又分别生成了wk_03、wk_04和wk_05的表数据。

图1 数据血缘关系示例
点击放大

数据血缘的产生：
DataArts Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。一般推荐使用自动血缘解析的方式，无需手动配置即可生成血缘关系，在不支持自动血缘解析的场景下，再手动配置血缘关系。
- 自动血缘解析，是由系统解析数据开发作业中的数据处理和数据迁移类型节点后自动产生的，无需进行手动配置。支持自动血缘解析的节点类型和场景请参见自动血缘解析。
- 手动配置血缘，是在数据开发作业节点中，自定义血缘关系的输入表和输出表。注意手动配置血缘时，此节点的自动血缘解析将不生效。支持手动配置血缘的节点类型请参见手动配置血缘。
数据血缘的展示：
首先在数据目录组件完成元数据采集任务，当数据开发作业满足自动血缘解析要求或已手动配置血缘，然后成功完成作业调度后，则可以在数据目录模块可视化查看数据血缘关系。