如何查看表行数和库大小
在数据治理流程中,我们常常需要统计数据表行数或数据库的大小。其中,数据表的行数可以通过SQL命令或数据质量作业获取;数据库大小可以直接在数据目录组件中查看,详情请参考如下操作指导:
统计数据表行数
对于不同类型的数据源,DataArts Studio提供了多种方式来查看表的行数。
- 对于DWS、DLI、RDS、MRS Presto、MRS Hive、MRS Spark、MRS ClickHouse等数据源,您可以在数据开发组件执行对应类型的统计表行数的SQL脚本,来查看表行数。
select count(*) from tablename
- 对于DWS、DLI、RDS、MRS Hive、MRS Spark、Oracle等数据源,您可以在数据质量组件执行质量作业,来查看表行数。
对于非上述数据源,建议您参考数据源侧的操作说明,在数据源侧直接查看表行数。
本例以通过DataArts Studio数据质量作业获取表行数的操作为例进行说明,这种方式可以同时统计同一数据库下多个表的行数。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据质量”模块,进入数据质量页面。
- 单击“质量作业”,进入质量作业列表。
- 单击“创建 ”,进入质量作业基本配置页面,如下图所示。
- 作业名称:CountingRows。
- 所属目录:选择作业存放目录。
- 作业级别:保持默认即可。
图1 基本配置
- 单击“下一步”,进入“规则配置”页面。单击子作业的打开图标,进入子作业配置页面。
图2 进入子作业配置
- 单击子作业的打开图标,进入子作业的配置页面,配置规则信息。
- 基本信息:非必填项,保持默认即可。
- 来源对象:
- 规则类型:选择“表级规则”。
- 数据连接:选择在管理中心组件中创建的数据源连接。
- 数据对象:选择待统计的数据表。
- 其他参数保持默认即可。
- 规则模板:
- 模板名称:选择“表行数(DWS,HIVE,SparkSQL,ORACLE)”。
- 其他参数保持默认即可。
- 计算范围:选择“全表扫描”。
- 告警条件:非必填,保持默认即可。
图3 子作业规则配置
- 单击“下一步”,进入“告警配置”页面。
告警条件选择“子规则告警条件”,表达式可以自定义,此处可配置为“${1}<=0”,表示总行数小于等于0时触发告警。图4 告警配置
- 单击“下一步”,进入“订阅配置”页面。
如果开启通知状态,需选择通知类型,并选择主题。通知类型有“触发告警”和“运行成功”两类,可根据实际业务场景选择。
- 单击“下一步”,进入“调度配置”页面。
调度方式分为“单次调度”和“周期调度”。单次统计选择“单次调度”即可。
- 单击“提交”,进入质量作业列表页面。
图5 质量作业列表
- 在CountingRows作业操作列,单击“运行”,生成作业对应的实例。
- 单击“运维管理”,进入作业实例列表界面,找到对应的作业实例。待实例运行完成后,单击“结果&日志”,在“运行结果”页签,可查看该质量作业的运行结果,即待统计表的总行数。
图6 查看表的总行数