数据质量管理
- 内置质量规则
内置多种质量规则,如:空值校验、重复数据校验、时延校验、聚合计算校验等校验多种校验方式,支持从合理性、完整性、唯一性、准确性、规范性、一致性、及时性等质量评分指标对数据质量进行监控。
图1 内置质量规则
- 自定义质量规则
支持用户通过自定义 SQL 校验、正则表达式校验等自定义的方式进行规则的扩展,实现如值域校验、精度校验等校验方式,形成规则模板以便重复使用。
图2 自定义质量规则
- 质量加权评分
支持用户自定义质量评分指标,为不同的质量规则关联指标并分配计分权重,从而根据企业的数据质量评估体系,有层次有重点地对数据质量进行评分。
图3 质量加权评分1
图4 质量加权评分2
- 单表质量检测
支持针对 Hive、Kudu、Oracle、MySQL、SQLServer、impala 等数据源类型,从合理性、完整性、唯一性、及时性、准确性、规范性及企业自定义等数据质量指标集成多个质量规则,对指定的单张表进行质量检查。
图5 单表质量检测
- 流式数据质量检测
针对 Kafka 等流式实时数据的质量稽核,还内置数据延迟和数据断流等规则进行支持。
图6 单表质量检测
- 多表对比分析
支持针对 Hive、Kudu、Oracle、MySQL、SQLServer、impala 等数据源类型,从一致性、及时性等数据质量指标集成多个质量规则,对指定的多张表进行比对分析,以判断,在数据同步或经 ETL 任务产出后,上下游的数据是否一致,所耗费的时间是否在预期范围内。
图7 多表对比分析
- 质量规则关联
支持关联内置模板规则、自定义模板库规则及自定义 SQL 规则。
图8 质量规则关联1
图9 质量规则关联2
图10 质量规则关联3
- 质量规则合规校验
支持通过固定值域区间或周期内统计波动的方式来判定是监测目标是否合规。
图11 质量规则关联3
- 质量检测任务调度
支持周期性调度、手动触发、关联任务、远程触发等多种调度方式。
图12 质量检测任务调度1
周期性调度支持月、周、天、小时、分、秒等粒度的检测周期设置,并支持生效时间段、重复日期或时刻、具体起调时间点等设置。
图13 质量检测任务调度2
- 关联ETL任务
关联任务调度支持数据质量任务关联多个数据开发任务。当数据开发任务运行一个周期后,数据质量任务会紧随其后对其产出的数据进行稽核,如稽核结果不达标,则会产生相应告警。如不达标的质量规则中包含强规则,则还会自动阻塞该数据开发任务的下游节点。
图14 关联ETL任务
- 质量监控报告
数据质量任务每次执行后会产生相应的实例。每个实例都包含对应的数据质量检测报告及执行日志。在任务运行实例监控列表中,可以直观的总览任务执行状态、运行时长、校验结果告警状态、错误规则数量等维度情况。
图15 质量监控报告1
数据质量报告以 Web 可视化的方式呈现。报告中,用户可以查看数据质量评分、总体规则数量及错误告警数量、任务时长详情等情况总览,查看触发错误告警的未通过规则列表、趋势、详情等信息。其中,数据质量规则列表清晰展示了各规则所检测的表字段、比对详情、校验结果等信息。
图16 质量监控报告2
图17 质量监控报告3
对相应的数据质量问题以工单形式进行流转和处理。
图18 质量监控报告4
- 数据质量概览大屏
数据质量概览大屏支持及时获悉不同统计周期内的错误告警数据量及环比、告警数量变换趋势及数据质量评分变化趋势、质量综合评分及不同质量指标的综合评分、按告警数量及指令分数对监控任务的排行等信息,从而整体地把握企业的数据质量现状及评估质量治理的重点。
图19 数据质量概览大屏