更新时间:2024-05-06 GMT+08:00
分享

数据集成前探查

数据探查是指用适当的统计、分析等方法对原始数据进行分析,对其特征加以汇总和理解,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程,以求在数据入湖前最大化地了解数据现状,为数据集成方案的设计提供数据依据。

  1. 数据探查分析流程

    依据数据集成入湖清单展开数据探查,重点探查与分析表与字段注释、数据类型、数据长度、数据量、数据主键、时间戳字段以及数据空值及分布情况等内容。在获取数据接入授权与数据源端连接信息后,确定数据探查方法并实施探查,参照数据标准与数据集成需求对探查结果进行分析,最终输出数据探查分析结果,形成问题清单,指导数据集成方案设计。

  2. 数据探查实施

    数据探查接入采用CDM工具将业务源端数据迁移至DWS数据库的数据接入方式,开展数据的探查与分析活动,该方法具备安全稳定与灵活复用的特性。

    数据探查实施采用平台采集与手动分析相结合的方式,首先在数管平台的“数据资产”模块中,创建元数据采集作业,勾选“数据概要”配置,对数据概要信息进行采集,可以基于不同的探查目的进行单表探查、多表探查、全量探查、采样探查,同时支持手动单次采集与周期调度采集。采集完成后可在资产管理界面进行查看与刷新。

  3. 数据探查结果分析

    针对数据探查结果,对待入湖的数据进行数据量、主键以及时间戳等内容的分析,判断数据质量问题,制定数据集成方案。

相关文档