更新时间:2024-08-05 GMT+08:00

配置增量元数据采集任务

配置、运行采集任务是构建数据资产的前提,下面举例说明如何通过配置采集任务达到灵活采集元数据的目的。

场景一:仅添加新元数据

用户的数据库中新增的数据表,采集任务仅采集新增的表。

例如新增table4的情况下:
  • 采集前的数据表元数据:table1,table2,table3
  • 采集后的数据表元数据:table1,table2,table3,table4

按照下面的配置,采集任务仅会采集table4。(前提:table1-table3已经在数据目录中)

  1. 进入DataArts Studio控制台首页的数据目录模块。
  2. 单击左侧导航的“任务管理”,进入任务管理页面。
  3. 在任务管理页面单击“新建”,新建一个元数据采集任务。
  4. 配置任务信息,如下图所示。

    图1 配置任务信息

  5. 单击“下一步”,配置调度属性如下图所示。

    图2 配置调度属性

  6. 单击“提交”,完成采集任务的创建。
  7. 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。

场景二:更新数据目录中的元数据,添加新元数据

用户的数据库中新增了数据表,采集数据源中指定的所有表。

例如新增table4的情况下:
  • 采集前的数据表元数据:table1,table2,table3
  • 采集后的数据表元数据:table1table2table3table4

按照如下配置,采集任务会采集default下所有的表(table1-table4)。

  1. 进入DataArts Studio控制台首页的数据目录模块。
  2. 单击左侧导航的“任务管理”,进入任务管理页面。
  3. 在任务管理页面单击“新建”,新建一个元数据采集任务。
  4. 配置任务信息,如下图所示。

    图3 配置任务信息

  5. 单击“下一步”,配置调度属性如下图所示。

    图4 配置调度属性

  6. 单击“提交”,完成采集任务的创建。
  7. 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。

场景三:仅更新数据目录中的元数据

用户的数据库中数据表有新增的情况,采集任务仅采集数据目录中已经存在的表。

例如新增table4的情况下:
  • 采集前的数据表元数据:table1,table2,table3
  • 采集后的数据表元数据:table1table2table3

按照如下配置,采集任务仅采集table1,table2和table3。

  1. 进入DataArts Studio控制台首页的数据目录模块。
  2. 单击左侧导航的“任务管理”,进入任务管理页面。
  3. 在任务管理页面单击“新建”,新建一个元数据采集任务。
  4. 配置任务信息,如下图所示。

    图5 配置任务信息

  5. 单击“下一步”,配置调度属性如下图所示。

    图6 配置调度属性

  6. 单击“提交”,完成采集任务的创建。
  7. 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。

场景四:更新数据目录中的元数据,添加新元数据 ,并从数据目录中删除元数据

用户的数据库中数据表有删除的情况,采集任务能够删除数据目录中对应的数据表。

例如数据库删除table1的情况下:
  • 采集前的数据表元数据:table1,table2,table3
  • 采集后的数据表元数据:table2table3

按照如下配置,采集任务会删除数据目录中的table1。

  1. 进入DataArts Studio控制台首页的数据目录模块。
  2. 单击左侧导航的“任务管理”,进入任务管理页面。
  3. 在任务管理页面单击“新建”,新建一个元数据采集任务。
  4. 配置任务信息,如下图所示。

    图7 配置任务信息

  5. 单击“下一步”,配置调度属性如下图所示。

    图8 配置调度属性

  6. 单击“提交”,完成采集任务的创建。
  7. 单击任务管理列表中的“运行”或“启动调度”,跳转到任务监控页面并查看任务状态。