文档首页/ 迁移中心 MGC/ 用户指南/ 大数据血缘/ 采集元数据/ 创建并运行元数据同步任务
更新时间:2024-12-05 GMT+08:00
分享

创建并运行元数据同步任务

利用元数据连接,创建元数据同步任务,将源端数据库的库、表、字段信息同步至迁移中心。

支持创建元数据同步任务的连接类型如下:

  • Hive Metastore连接
  • Doris连接
  • HBase连接
  • ClickHouse连接
  • Hudi(有元数据)连接
  • Hudi(无元数据)连接
  • MaxCompute连接
  • 阿里云云数据库ClickHouse连接

您还可以通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据

前提条件

创建元数据连接

操作步骤

  1. 登录迁移中心管理控制台。
  2. 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目
  3. 元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。

  4. 根据表1,配置元数据同步任务参数。

    表1 元数据同步任务参数配置说明

    参数

    配置说明

    任务名称

    默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。

    元数据连接

    根据实际需求,选择已创建的元数据连接类型。

    数据库

    填写需要进行元数据同步的数据库名称。

    须知:

    元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。其他元数据连接类型,该参数为可选参数,不填则代表同步全部数据库。

    并发线程数

    设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和迁移工具(Edge)所安装主机的计算资源。

  5. 参数配置完成后,单击“确认”按钮,创建元数据同步任务完成。
  6. 单击“采集任务”,进入元数据采集页面。在任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。

  7. 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
  8. 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。

  9. 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务

相关文档