文档首页/ 数据治理中心 DataArts Studio/ 最佳实践/ 如何查看表行数和库大小
更新时间:2024-08-30 GMT+08:00

如何查看表行数和库大小

在数据治理流程中,我们常常需要统计数据表行数或数据库的大小。其中,数据表的行数可以通过SQL命令或数据质量作业获取;数据库大小可以直接在数据目录组件中查看,详情请参考如下操作指导:

统计数据表行数

对于不同类型的数据源,DataArts Studio提供了多种方式来查看表的行数。

  • 对于DWS、DLI、RDS、MRS Presto、MRS Hive、MRS Spark、等数据源,您可以在数据开发组件执行对应类型的统计表行数的SQL脚本,来查看表行数。
    select count(*) from tablename
  • 对于DWS、DLI、RDS、MRS Hive、MRS Spark、Oracle等数据源,您可以在数据质量组件执行质量作业,来查看表行数。

对于非上述数据源,建议您参考数据源侧的操作说明,在数据源侧直接查看表行数。

本例以通过DataArts Studio数据质量作业获取表行数的操作为例进行说明,这种方式可以同时统计同一数据库下多个表的行数。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。
  2. 单击“质量作业”,进入质量作业列表。
  3. 单击“创建 ”,进入质量作业基本配置页面,如下图所示。

    • 作业名称:CountingRows。
    • 所属目录:选择作业存放目录。
    • 作业级别:保持默认即可。
    图1 基本配置

  4. 单击“下一步”,进入“规则配置”页面。单击子作业的打开图标,进入子作业配置页面。

    图2 进入子作业配置

  5. 单击子作业的打开图标,进入子作业的配置页面,配置规则信息。

    • 基本信息:非必填项,保持默认即可。
    • 来源对象:
      • 规则类型:选择“表级规则”。
      • 数据连接:选择在管理中心组件中创建的数据源连接。
      • 数据对象:选择待统计的数据表。
      • 其他参数保持默认即可。
    • 规则模板:
      • 模板名称:选择“表行数(DWS,HIVE,SparkSQL,ORACLE)”。
      • 其他参数保持默认即可。
    • 计算范围:选择“全表扫描”。
    • 告警条件:非必填,保持默认即可。
    图3 子作业规则配置

  6. 单击“下一步”,进入“告警配置”页面。

    告警条件选择“子规则告警条件”,表达式可以自定义,此处可配置为“${1}<=0”,表示总行数小于等于0时触发告警。
    图4 告警配置

  7. 单击“下一步”,进入“订阅配置”页面。

    如果开启通知状态,需选择通知类型,并选择主题。通知类型有“触发告警”和“运行成功”两类,可根据实际业务场景选择。

  8. 单击“下一步”,进入“调度配置”页面。

    调度方式分为“单次调度”和“周期调度”。单次统计选择“单次调度”即可。

  9. 单击“提交”,进入质量作业列表页面。

    图5 质量作业列表

  10. 在CountingRows作业操作列,单击“运行”,生成作业对应的实例。
  11. 单击“运维管理”,进入作业实例列表界面,找到对应的作业实例。待实例运行完成后,单击“结果&日志”,在“运行结果”页签,可查看该质量作业的运行结果,即待统计表的总行数。

    图6 查看表的总行数

统计数据库大小

您可以直接在数据目录组件中查看数据库大小。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
  2. 在“总览”页面的“资产总览”页签,单击技术资产下数据库的统计数量,即可查看每个库对应的表数量及大小。

    图7 查看技术资产
    图8 查看数据量