更新时间:2024-08-05 GMT+08:00
配置增量元数据采集任务
配置、运行采集任务是构建数据资产的前提,下面举例说明如何通过配置采集任务达到灵活采集元数据的目的。
场景一:仅添加新元数据
用户的数据库中新增的数据表,采集任务仅采集新增的表。
例如新增table4的情况下:
- 采集前的数据表元数据:table1,table2,table3
- 采集后的数据表元数据:table1,table2,table3,table4
按照下面的配置,采集任务仅会采集table4。(前提:table1-table3已经在数据目录中)
- 进入DataArts Studio控制台首页的数据目录模块。
- 单击左侧导航的“任务管理”,进入任务管理页面。
- 在任务管理页面单击“新建”,新建一个元数据采集任务。
- 配置任务信息,如下图所示。
图1 配置任务信息
- 单击“下一步”,配置调度属性如下图所示。
图2 配置调度属性
- 单击“提交”,完成采集任务的创建。
- 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
场景二:更新数据目录中的元数据,添加新元数据
用户的数据库中新增了数据表,采集数据源中指定的所有表。
例如新增table4的情况下:
- 采集前的数据表元数据:table1,table2,table3
- 采集后的数据表元数据:table1,table2,table3,table4
按照如下配置,采集任务会采集default下所有的表(table1-table4)。
- 进入DataArts Studio控制台首页的数据目录模块。
- 单击左侧导航的“任务管理”,进入任务管理页面。
- 在任务管理页面单击“新建”,新建一个元数据采集任务。
- 配置任务信息,如下图所示。
图3 配置任务信息
- 单击“下一步”,配置调度属性如下图所示。
图4 配置调度属性
- 单击“提交”,完成采集任务的创建。
- 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
场景三:仅更新数据目录中的元数据
用户的数据库中数据表有新增的情况,采集任务仅采集数据目录中已经存在的表。
例如新增table4的情况下:
- 采集前的数据表元数据:table1,table2,table3
- 采集后的数据表元数据:table1,table2,table3
按照如下配置,采集任务仅采集table1,table2和table3。
- 进入DataArts Studio控制台首页的数据目录模块。
- 单击左侧导航的“任务管理”,进入任务管理页面。
- 在任务管理页面单击“新建”,新建一个元数据采集任务。
- 配置任务信息,如下图所示。
图5 配置任务信息
- 单击“下一步”,配置调度属性如下图所示。
图6 配置调度属性
- 单击“提交”,完成采集任务的创建。
- 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
场景四:更新数据目录中的元数据,添加新元数据 ,并从数据目录中删除元数据
用户的数据库中数据表有删除的情况,采集任务能够删除数据目录中对应的数据表。
例如数据库删除table1的情况下:
- 采集前的数据表元数据:table1,table2,table3
- 采集后的数据表元数据:table2,table3
按照如下配置,采集任务会删除数据目录中的table1。
- 进入DataArts Studio控制台首页的数据目录模块。
- 单击左侧导航的“任务管理”,进入任务管理页面。
- 在任务管理页面单击“新建”,新建一个元数据采集任务。
- 配置任务信息,如下图所示。
图7 配置任务信息
- 单击“下一步”,配置调度属性如下图所示。
图8 配置调度属性
- 单击“提交”,完成采集任务的创建。
- 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。
父主题: 数据目录典型场景教程