更新时间:2024-10-18 GMT+08:00

查看数据质量报告

您可以查询业务指标、数据质量中数据对象的质量评分,来判断各个对象是否质量达标。

查看质量报告包含技术报告和业务报告。

技术报告的统计范围是依据质量作业的运行结果,包含数据连接、数据库、表名、评分等信息。

业务报告的统计范围是依据数据架构主题关联匹配的质量作业运行的结果,包含主题域、主题域分组、业务对象、表名、评分等信息。

查看技术报告数据质量评分

质量评分的满分可设置为5分,10分,100分。默认为5分制,是以表关联的规则为基础进行评分的。而表、数据库等不同维度的评分均基于规则评分,本质上是基于规则评分在不同维度下的加权平均值进行计算的。

您可以查询所创建数据连接下数据库、数据库下的数据表以及数据表所关联规则的评分,具体评分对象的计算公式,请参见表1

表1 对象评分计算公式

对象

评分计算公式

规则

创建质量作业时,作业关联的规则中结果说明列包含“比率”、“值率”的系统内置规则及用户自定义规则可以生成质量评分报告。

  • 包含“比率”、“值率”的规则可以分为正向规则及反向规则,正向规则即比值越高,代表数据质量越好;反向规则即比值越高,则数据质量越差。

    正向规则包含唯一值率、重复值率、合法比率规则,反向规则包含空值率规则。

  • 正向规则评分=满足规则的数据行数/数据总行数*满分(5,10,100)。
  • 反向规则评分=(1-满足规则的数据行数/数据总行数)*满分(5,10,100)。

数据表

表评分计算公式:∑(表关联的所有规则评分*规则权重)/∑规则权重

数据库

数据库下所有数据表评分的加权求平均值,即:∑数据库下所有数据表评分/表的数量。

数据连接

数据连接下所有数据库评分的加权平均值,即:∑数据连接下所有数据库的评分/数据库的数量。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。
  2. 选择数据质量监控 > 质量报告
  3. “技术报告”页签,选择数据连接及时间段,系统支持查询报告的最大时间范围限制为30天,如图1所示。

    图1 选择数据连接

    • 以评分满分为5分为例。其中4-5分评价为优秀,3-4分为良好,2-3分为不及格,1-2分为较差,0-1分为极差。
    • 当天质量评分数据在次日凌晨生成。
    • 质量评分历史趋势中的实线为截至日期前7天质量评分组成的连线,虚线为这7天质量评分的平均分。
    • 若一天多次运行该作业,当天的质量评分为最后一次的得分。

  4. 单击“表评分”列的评分值链接,展开该表关联的规则评分,如图2所示。

    图2 查看规则评分

    规则名称为运行实例名称,如果作业被运行多次,取最新时间运行实例的结果。如果同一运行实例中,有多个子实例检验该表,则每个子实例一条记录。

  5. 单击“规则评分”列的评分值链接,展开该规则关联的字段评分,如图3所示。

    图3 表关联规则评分界面

查看业务报告业务质量评分

质量评分的满分可设置为5分,10分,100分。默认为5分制,是以表关联的规则为基础进行评分的。而表、业务对象、主题域等不同维度的评分,本质上是基于规则评分在不同维度下的加权平均值进行计算的。

您可以查询主题域分组、主题域、业务对象、表以及表关联的规则评分,具体评分对象的计算公式,请参见表2

表2 对象评分计算公式

对象

评分计算公式

规则

创建质量作业时,包含“比率”、“值率”的系统内置规则及用户自定义规则可以生成质量评分报告。

  • 包含“比率”、“值率”的规则可以分为正向规则及反向规则,正向规则即比值越高,代表数据质量越好;反向规则即比值越高,则数据质量越差。

    正向规则包含唯一值率、重复值率、合法比率规则,反向规则包含空值率规则。

  • 正向规则评分=满足规则的数据行数/数据总行数*满分(5,10,100)。
  • 反向规则评分=(1-满足规则的数据行数/数据总行数)*满分(5,10,100)。
  • 当表为空,即总行数为0时,正向规则评分固定为满分,反向评分固定为0分。

表评分计算公式:∑(表关联的所有规则评分*规则权重)/∑规则权重

业务对象

业务对象下所有表评分的加权求平均值,即:∑业务对象下所有表评分/表的数量。

主题域

主题域下所有业务对象评分的加权求平均值,即:∑主题域下所有业务对象评分/业务对象的数量。

主题域分组

分组下所有主题域评分的加权求平均值,即:∑分组下所有主题域评分/主题域的数量。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。
  2. 选择数据质量监控 > 质量报告
  3. 单击“业务报告”页签,选择主题及截至日期,查询截至日期前7天的数据质量评分,如图4所示。

    图4 业务对象

    • 以评分满分为5分为例。其中4-5分评价为优秀,3-4分为良好,2-3分为中等,1-2分为及格,0-1分为不及格。
    • 当天质量评分数据在次日凌晨生成。
    • 质量评分历史趋势中的实线为截至日期前7天质量评分组成的连线,虚线为这7天质量评分的平均分。
    • 若一天多次运行该作业,当天的质量评分为最后一次的得分。

  4. 单击“表评分”列的评分值链接,展开该表关联的规则评分。
  5. 单击“规则评分”列的评分值链接,展开该规则关联的字段评分,如图5所示。

    图5 表关联规则评分

导出质量报告

您可以通过以下两种方式导出质量报告:

  • 若使用局点有OBS服务,系统默认导出到关联的OBS桶中。
    • 由于质量报告数据量较大,单个导出文件字段条数最多为2000条,因此OBS桶里或许会有多个导出文件。
    • 导出的报告仅限当前工作空间内。
  • 若使用局点没有OBS服务,系统默认导出到本地。
  1. DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。
  2. 选择数据质量监控 > 质量报告

    图6 质量报告页面

  3. 单击页面右上角的“导出”按钮,将质量报告导出。

    图7 导出

    图8 导出到OBS桶

  4. 可在导出记录中查看导出结果,单击“下载”可以下载数据质量报告。如果导出的报告文件过大,系统也支持直接下载大文件。

    图9 导出记录

立即刷新

在质量作业和对账作业运行完毕后,通过立即刷新功能,用户可以立即获得零点到当前时间的数据质量报告临时数据。到第二天凌晨,质量报告的调度任务开始执行,此时生成的数据是前一天的全量数据质量报告。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。
  2. 选择数据质量监控 > 质量报告
  3. 单击页面右上角的“立即刷新”按钮,页面将展示零点到当前时间的临时数据,用户可以立即获得当天的数据质量报告数据。

    图10 立即刷新