文档首页/ 迁移中心 MGC/ 用户指南/ 大数据血缘/ 采集元数据/ 创建并运行数据湖元数据同步任务
更新时间:2024-11-01 GMT+08:00

创建并运行数据湖元数据同步任务

利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。

Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据

操作步骤

  1. 登录迁移中心管理控制台。
  2. 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目
  3. 元数据采集区域,单击“创建任务 > 数据湖元数据同步”按钮,右侧弹出创建任务-数据湖元数据同步窗口。

  4. 根据表1,配置数据湖元数据同步任务参数。

    表1 元数据同步任务参数配置说明

    参数

    配置说明

    任务名称

    默认创建名称为“数据湖元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。

    元数据连接

    选择已创建的Delta-Lake(有元数据)元数据连接

    数据库

    填写需要进行元数据同步的数据库名称。

    并发线程数

    设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和迁移工具(Edge)所安装主机的计算资源。

    自定义参数

    可以通过自定义参数设置同步的特定表或分区、过滤条件等。

    • 如果需要同步的是阿里云 EMR环境中的元数据,请添加如下参数:
      • 参数名:conf
      • 参数值:spark.sql.catalogImplementation=hive
    • 如果源端是阿里云 EMR Delta 2.2版本并且是通过Delta 2.3版本依赖访问时,请添加如下参数:
      • 参数名:master
      • 参数值:local

  5. 参数配置完成后,单击“确认”按钮,创建数据湖元数据同步任务完成。
  6. 单击“采集任务”,进入元数据采集页面。在任务管理页签,可以查看已创建的数据湖元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。

  7. 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
  8. 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。

  9. 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务