构建人口库模型、分析来源并接入
构建人口库模型
在标准的人口库中应包含人口基本信息表 T_RK_BaseInfo、人口婚姻 T_RK_Marriage 等表信息,先结合实际需求将人口库所需表维护至模型管理中(下面4模型设计)。
融合、发布所需目标表可于【数据标准】-【数据模型】-【模型管理】-【逻辑模型】处设计,管理员从左侧树中拖出需要的表、字段或直接手动添加,拼接为最终的可发布表结构,通过物化功能将其物化至基础层、发布库中。例如可将人口信息表和人口婚姻表拖拽到画板中,通过表合并将两个表字段合并形成一张新表,通过物化落地到实际的数仓标准层中。
分析来源并接入
分析人口库中所需数据,得出数据来源,例:户籍人口信息 rk_baseinfo、民政局 婚姻状况 rk_marriage、人社局 社保信息 Insuarance、教育局 教育信息 Education。将这些部门资源库配置入系统,并配置接入作业
首先要根据需求将不同部门的人口信息实体表 t_rk_baseinfo 从部门资源库采集到数仓贴源层中。
选择部门资源库(来源库)、来源表,根据选择的来源表判断表的类型是实体还是明细,比如如果设定好调度周期和调度时间,保存成功后单击【推送并启用】,等待作业跑成功,可以先关闭页面,任务跑结束后会发送一个是否跑成功的系统提醒。在数仓的贴源层会生成一个贴源层表,如果是实体表格式为 O_ST_{@dept}_{@table},明细表格式为O_SS_{@dept}_{@table}({@dept}与{@table} 分别代表部门简称及原表名)。
如人口信息实体表t_rk_baseinfo接入成功后贴源层生成O_ST_XTGLB_t_rk_baseinfo表。
人口婚姻表 t_rk_marriage 资源表类型选择明细,接入成功后贴源层生成 O_SS_XTGLB_t_rk_marriage 表
采集方式说明
全量模式接入:推荐 1000w 以下数据量使用,平均 100ws 数据只需 60s 即可接入至数仓中
时间戳接入:只支持数据是增量插入的,存在删除、修改数据的情况不建议使用,数据会不准确
时间戳+触发器接入:推荐 1000w 数据量以上使用,但贴源层表数据不能直接使用,需数据清洗至标准层,hive 中数据处理存在临时表,处理数据时间比前两种方式长