数据调研作业
数据调研作业是通过源端agent数据探源包,通过配置相应的探源规则,对待集成的源端系统数据进行探源,方便用户快速获取到要进行数据实施的源系统数据结构,且支持基于探源结果生成入湖清单。

在进行数据调研作业前,需要提前在新建数据连接中创建好对应的连接。
入口:


配置调研规则
配置调研规则用来配置数据探源的时间调度配置,如DB采集周期,表信息采集周期等,由解决方案工作台生成配置文件,结合探源工具示例代码完成数据探源。
点击【配置调研规则】进入配置界面。

- 首先要添加监控对象,即要监控的数据源,配置想要采集的数据连接的库表信息,以及所需采集的空值字段的表名和表字段名的采集。
图4 添加监控对象
- 选择已有的想要采集的数据连接名称,然后填写schema名称,如果开启空值率检测,则需要填写表名称,默认检查全部字段的空值率。完成后点击【下一步】。
图5 添加监控对象
- 配置鉴权码。
数据调研结果可在线上报或离线导入。如果运行调研工具的服务器可访问公网,则可在此选择【开启】鉴权码,然后点击【添加】,将开启状态的鉴权码复制配置到数据调研的配置文件中,数据调研结果将会在线上报至解决方案工作台;否则需要离线导入,此时可选择【关闭】鉴权码。完成后点击【下一步】。
图6 配置鉴权码 - 时间调度配置。
解决方案工作台支持使用调研工具对源系统进行数据调研,支持配置数据调研规则,包含DB、表信息等采集周期和具体时间,如果未配置,则按默认规则进行数据采集。
表1 参数
说明
DB采集
配置数据库采集时间,如:数据库类型,数据库表数,数据总量,采集时间。
表信息采集
配置表的采集时间。
字段采集
配置字段采集时间。
上报采集
配置库、表、字段采集信息的上报时间。
删除字段
各项目根据自己公司的实际情况,配置表在软删除时删除字段的名称。
图7 时间调度配置完成后点击【确定】,将会自动下载配置文件application.xlsx。
配置文件中包含了前面配置的规则、数据源信息等,用户可以修改配置文件中的信息。由于解决方案工作台不记录数据库密码,因此下载配置文件后可自行在文件中补充数据库登录密码。
图8 配置文件表格
执行数据调研
- 下载探源工具示例代码。
图9 下载探源工具示例代码
- 将jar包放入远端服务器中,即用来做调研的服务器中。要求:该服务器为linux服务器中,且该服务器网络可访问到要探源的数据系统。
- 将下载的配置文件application.xslx放入该远端服务器中。注意,需要和jar包在同一个目录下。
图10 探源工具
- 运行启动脚本:run_agent.sh
启动后,将会按照配置文件application.xslx的规则进行数据调研,获取指定数据库的数据结构。更多说明,请参考探源工具示例代码中的指导。
探源工具通过查询指定数据库的系统表获取相关信息,对数据库压力较小,但为了保证不影响业务,建议将探源工具的定时任务设置在凌晨等压力较小的时间段进行。
- 查看监控对象数据调研结果。
数据调研结果可在线上报或离线导入:如果运行探源工具的服务器可访问公网,则支持在线上报;否则需要离线导入。
- 在线上报
按照配置文件application.xslx的采集和上报规则,调研结果可在线上报到解决方案工作台(要求运行探源工具的服务器可访问公网)。在调研结果列表中点击刷新按钮即可查看结果。
图11 查看调研结果点击表名可查看详细表结构,包括表行数、表数据量、空值率检测(该表是否进行了空置率检测)等。
图12 数据探源结果 - 离线导入
如果调研的系统仅能在客户侧内网运行,则可通过离线导入的方式将调研结果(4.数据调研脚本运行后会在相同目录下生成数据压缩包)导入到解决方案工作台。
图13 探源工具运行结果图14 导入调研结果
- 在线上报