创建并运行数据湖元数据同步任务
利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。
Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。
前提条件
操作步骤
- 登录迁移中心管理控制台。
- 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。
- 在元数据采集区域,单击“创建任务 > 数据湖元数据同步”按钮,右侧弹出创建任务-数据湖元数据同步窗口。
- 根据表1,配置数据湖元数据同步任务参数。
表1 元数据同步任务参数配置说明 参数
配置说明
任务名称
默认创建名称为“数据湖元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。
元数据连接
数据库
填写需要进行元数据同步的数据库名称。
并发线程数
设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和迁移工具(Edge)所安装主机的计算资源。
自定义参数
可以通过自定义参数设置同步的特定表或分区、过滤条件等。
- 如果需要同步的是阿里云 EMR环境中的元数据,请添加如下参数:
- 参数名:conf
- 参数值:spark.sql.catalogImplementation=hive
- 如果源端是阿里云 EMR Delta 2.2版本并且是通过Delta 2.3版本依赖访问时,请添加如下参数:
- 参数名:master
- 参数值:local
- 如果需要同步的是阿里云 EMR环境中的元数据,请添加如下参数:
- 参数配置完成后,单击“确认”按钮,创建数据湖元数据同步任务完成。
- 单击“采集任务”,进入元数据采集页面。在任务管理页签,可以查看已创建的数据湖元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。
- 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
- 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
- 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。