更新时间:2024-04-25 GMT+08:00
分享

附录 背景信息

表1 数据集成实施

类别

步骤

实施说明

数据集成实施

开发测试

  • 数据开发任务梳理:根据数据湖数据集成方案、数据湖数据集成实施指南及待入湖数据情况,梳理需要开发的数据集成任务和脚本,并明确入湖开发分工及节奏。
  • 数据入湖开发实施:按照数据集成方案和实施指南进行实施,开发数据集成任务或脚本,并完成测试。
  • 系统集成测试:各数据链路迭代完成后,对全链路进行数据一致性效验、链路可靠性测试、数据入湖性能测试,并由最终用户依据业务需求进行测试。
  • 数据集成支撑:根据数据入湖需求,协调获取如下支撑和保障:
    1. 完成数据采集所需要的技术支撑,包括账号、权限,网络,文件格式,文件内容,技术文档等;
    2. 客户方协调业务、技术人员,以及第三方人员(如数据应用分析团队)按需提供支撑。
  • 实时(含流式)数据入湖:按照数据集成打样设计中实时(含流式)数据入湖内容,开展相应数据开发、参数配置、任务调度和链路调测等,确保打样链路畅通,能够顺利完成数据入湖。

部署上线

  • 上线计划制定:经与相关干系人沟通、确认,制定上线计划,明确上线范围和里程碑节点,经客户审批后实施
  • 上线相关方案制定:制定上线失败回退方案、数据入湖运维方案、上线操作手册等,并对客户相关人员进行培训。
  • 上线检查实施:
    1. 清理测试阶段的数据和与商用无关的数据;
    2. 检查系统中的各项配置是否正确,并导出当前配置文件作为副本;
    3. 收回所有人的接入权限,删除测试用户的注册信息并关闭白名单;
    4. 检查上线的操作手册、脚本是否完备等。
  • 上线实施:
    1. 建设客户业务系统、中间库和数据集成平台的网络策略,网闸策略;
    2. 按照接入方案,执行集成作业,对各个业务系统全量和增量数据进行接入。
  • 上线试运行:开展上线试运行支持,监控数据接入链路运行情况,并对接入数据一致性等进行监控,及时解决上线发现的问题,并输出上线试运行报告。
表2 数据治理实施

类别

实施条目

实施内容说明

数据治理实施

数据标准实施

根据咨询和设计输出的数据标准,在DataArts上落地数据标准,并完成数据标准发布。

物理建模实施

根据设计环节输出的物理模型,完成数据各层的物理建模实施,并检查实施结果。

数据指标开发

根据指标设计方案,配置原子指标、衍生指标和复合指标以及对应的ETL脚本,其他还包括:新建时间限定和维度配置。

脚本/作业开发

按需完成各数据层的ETL脚本开发、数据同步,并基于各层数据的时间顺序、频率的要求,完成作业开发和调度执行。

  1. 完成ODS层->DWI层的数据同步,在此过程中完成数据的清洗转换,以及多源异构数据的整合;
  2. 完成DWI层->DWR层的数据同步,在DWR层将数据按分析/主题维度汇聚,并根据业务需求进行不同粒度的轻度汇总;
  3. 完成DWR层->DM层的数据同步,对应数据应用系统的需求,在DM层将数据按应用维度进行汇聚。

数据服务开发

根据数据服务设计方案,基于数据使能平台的数据服务模块完成API开发,包括:API生成、API注册、API审核、API发布。

数据质量实施

根据需要监控的业务指标或数据质量,选择系统预置的数据质量模板或开发相应的数据质量分析脚本,并配置作业定期执行。通过已定义的数据质量规则对目标数据进行检查。

数据资产实施

基于数据目录、数据表两个维度管理对应的数据权限;基于数据密级以及脱敏策略实现数据安全管理;针对各类数据源实现元数据采集管理。

表3 数据地图平台实施

类别

步骤

实施说明

数据地图平台

开发实施

  • 信息架构集成:从DGC获取五层信息架构,通过云服务配置同步到数据地图。
  • 数据湖资产同步:根据数据湖数据集成方案,同步数据湖中已有数据。
  • 数据血缘关系导入:以搜集到的数据链路为输入,导入到数据地图。
  • API资产管理:采集和维护API资产,并进行配置展现。
  • 报表资产管理:按照调研内容,遵循数据资产管理要求,采集已有报表资产。并完成与现有报表系统的对接,实现报表资产的自动化采集。

从数据湖到数据地图平台,各数据链路迭代完成后,对全链路进行数据一致性效验、链路可靠性测试,并由最终用户依据业务需求进行测试。

部署上线

  • 上线计划制定:经与相关干系人沟通、确认,制定上线计划,明确上线范围和里程碑节点,经客户审批后实施
  • 上线相关方案制定:制定上线失败回退方案、数据地图平台运维方案、上线操作手册等,并对客户相关人员进行培训。
  • 上线检查实施:
    1. 清理测试阶段的数据和与商用无关的数据;
    2. 检查系统中的各项配置是否正确,并导出当前配置文件作为副本;
    3. 收回所有人的接入权限,删除测试用户的注册信息并关闭白名单;
    4. 检查上线的操作手册、脚本是否完备等。
  • 上线实施:按照接入方案,执行数据资产接入,对数据湖,以及各个业务系统报表资产和API资产进行接入。
  • 上线试运行:开展上线试运行支持,监控数据资产运行情况,并对接入数据资产一致性等进行监控,及时解决上线发现的问题,并输出上线试运行报告。

相关文档