元数据管理
- 元数据采集
- 支持 mysql、sqlserver、oracle、postgresql、db2 等主流关系型数据库;
- 支持 hive、greenplum、clickhouse 等分布式分析型数据库;
- 支持 hbase、kudu、mongodb 等 NoSQL 数据库;
- 支持 kafka、hdfs 等其他类型数据源;
图1 元数据采集
- 元数据明细
在具体的数据资产元数据明细里,可以查看字段信息、索引信息、存储情况概览、存储分区信息、以及变更信息。
图2 元数据明细1
支持以下载的方式导出数据表的元数据;
图3 元数据明细2
- 元数据版本
在变更信息中,可以查看元数据的版本列表,不同版本的元数据明细及差异比对。每次采集元数据后,如数据表的元数据与上次采集的结果有差异,则会形成新的元数据版本,并支持元数据差异比对。
图4 元数据版本1
如用户订阅了数据表,则该变更会通过用户邮件通知订阅者。订阅者可及时比对发现差异,并可进一步通过影响分析找到下游数据表及关联产出任务,及时进行相关调整。
图5 元数据版本2
- 元数据质量检测
内置主键缺失、无用表、属性空值及合规性检测等通用元数据质量规则,并支持用户自定义其他关键字段缺失规则,满足不同元数据质量检测场景的需要。其中,合理性规则用于检测各数据源中,字段的命名及备注等信息是否满足所关联的数据元标准约束,是感知标准落地情况的关键措施。
图6 元数据质量检测1
支持手动或周期性运行元数据质量检测任务。
图7 元数据质量检测2
任务运行后,所检测出有质量问题的元数据信息,会统一归档在待治理资产列表中。用户可以层层下钻,查看有质量问题的库、表及字段。
图8 元数据质量检测3