更新时间:2025-08-12 GMT+08:00
分享

数据调研作业

数据调研作业是通过源端agent数据探源包,通过配置相应的探源规则,对待集成的源端系统数据进行探源,方便用户快速获取到要进行数据实施的源系统数据结构,且支持基于探源结果生成入湖清单。

在进行数据调研作业前,需要提前在新建数据连接中创建好对应的连接。

入口:

图1 入口1
图2 入口2

配置调研规则

配置调研规则用来配置数据探源的时间调度配置,如DB采集周期,表信息采集周期等,由解决方案工作台生成配置文件,结合探源工具示例代码完成数据探源。

点击【配置调研规则】进入配置界面。

图3 配置调研规则
  1. 首先要添加监控对象,即要监控的数据源,配置想要采集的数据连接的库表信息,以及所需采集的空值字段的表名和表字段名的采集。

    点击【添加监控对象】。

    图4 添加监控对象
  2. 选择已有的想要采集的数据连接名称,然后填写schema名称,如果开启空值率检测,则需要填写表名称,默认检查全部字段的空值率。完成后点击【下一步】。
    图5 添加监控对象
  3. 配置鉴权码。

    数据调研结果可在线上报或离线导入。如果运行调研工具的服务器可访问公网,则可在此选择【开启】鉴权码,然后点击【添加】,将开启状态的鉴权码复制配置到数据调研的配置文件中,数据调研结果将会在线上报至解决方案工作台;否则需要离线导入,此时可选择【关闭】鉴权码。完成后点击【下一步】。

    图6 配置鉴权码
  4. 时间调度配置。

    解决方案工作台支持使用调研工具对源系统进行数据调研,支持配置数据调研规则,包含DB、表信息等采集周期和具体时间,如果未配置,则按默认规则进行数据采集。

    表1

    参数

    说明

    DB采集

    配置数据库采集时间,如:数据库类型,数据库表数,数据总量,采集时间。

    表信息采集

    配置表的采集时间。

    字段采集

    配置字段采集时间。

    上报采集

    配置库、表、字段采集信息的上报时间。

    删除字段

    各项目根据自己公司的实际情况,配置表在软删除时删除字段的名称。

    图7 时间调度配置

    完成后点击【确定】,将会自动下载配置文件application.xlsx。

    配置文件中包含了前面配置的规则、数据源信息等,用户可以修改配置文件中的信息。由于解决方案工作台不记录数据库密码,因此下载配置文件后可自行在文件中补充数据库登录密码。

    图8 配置文件表格

执行数据调研

返回“数据调研作业”页面,下载探源工具示例代码,结合下载的配置文件按照探源工具指导对源系统进行数据调研。
  1. 下载探源工具示例代码。
    图9 下载探源工具示例代码
  2. 将jar包放入远端服务器中,即用来做调研的服务器中。要求:该服务器为linux服务器中,且该服务器网络可访问到要探源的数据系统。
  3. 将下载的配置文件application.xslx放入该远端服务器中。注意,需要和jar包在同一个目录下。
    图10 探源工具
  4. 运行启动脚本:run_agent.sh

    启动后,将会按照配置文件application.xslx的规则进行数据调研,获取指定数据库的数据结构。更多说明,请参考探源工具示例代码中的指导。

    探源工具通过查询指定数据库的系统表获取相关信息,对数据库压力较小,但为了保证不影响业务,建议将探源工具的定时任务设置在凌晨等压力较小的时间段进行。

  5. 查看监控对象数据调研结果。
    数据调研结果可在线上报或离线导入:如果运行探源工具的服务器可访问公网,则支持在线上报;否则需要离线导入。
    • 在线上报

      按照配置文件application.xslx的采集和上报规则,调研结果可在线上报到解决方案工作台(要求运行探源工具的服务器可访问公网)。在调研结果列表中点击刷新按钮即可查看结果。

      图11 查看调研结果

      点击表名可查看详细表结构,包括表行数、表数据量、空值率检测(该表是否进行了空置率检测)等。

      图12 数据探源结果
    • 离线导入

      如果调研的系统仅能在客户侧内网运行,则可通过离线导入的方式将调研结果(4.数据调研脚本运行后会在相同目录下生成数据压缩包)导入到解决方案工作台。

      图13 探源工具运行结果
      图14 导入调研结果

相关文档