融合与发布
融合不是一个必须的过程,对于例举的人口基本信息、概况信息等常用宽表,可用到融合,而如果仅公安临时需要人社、婚姻及教育局部分数据字段,可直接通过发布作业进行拼接。
应用开始构建的人口库模型, 将表物化到基础层、发布库。通过融合作业,讲前序产生的户籍、教育等标准表进行拼接,数据汇聚入人口概况宽表。再通过发布作业将概况宽表发布至发布库。
数据融合非治理流程中的必须步骤,主要用于将多张业务表合并为一张业务宽表,在人口库形成场景中,公民的基本信息、教育信息、车辆信息、劳务信息等可能存在于多张业务表中,如有新的业务需求于一张表中查询某公民的全部信息,则需要将多张业务表的关键信息融合至一张业务宽表,此时便需要使用数据融合功能。
现在融合有两种类型,一种是通过建模平台配置,另一种是通过自定义 sql 来融合。
- 建模方式融合
如下图,是通过建模来配置融合作业,拖入人口基本信息表和人口婚姻表,将两表进行表关联,数据流向本地库中,选择本地库中存在的表进行字段一一映射,本地库存在的的表是指基础层的表,一般通过数据模型-逻辑模型创建。
图1 建模方式融合1
图2 建模方式融合2
图3 建模方式融合3
- 自定义 sql 融合
选择来源表和目标表,目标表是基础层的表,要确保来源表的表结构表名称和目标表一一对应,填写融合的 sql 语句,保存完之后在列表页启动作业。
交换任务成功运行后,系统将根据融合配置将于数仓基础层用张业务表合并为一张宽表。
这边的发布和发布定义的不同之处是这边的发布主要用于融合之后的表的发布,可由基础层表或经过融合的基础层表发布至发布库供部门使用。
图4 自定义 sql 融合1
图5 自定义 sql 融合2