创建并运行数据湖元数据同步任务

利用元数据连接，将源端数据库的库、表、字段信息同步至迁移中心。

支持创建数据湖元数据同步任务的连接类型如下：

Delta Lake（无元数据）和Hudi（无元数据）只能通过手动添加、导入模板等方式添加元数据库表信息，方法请参见查看元数据。

根据表1，配置数据湖元数据同步任务参数。

表1 元数据同步任务参数配置说明
参数	配置说明
任务名称	默认创建名称为“数据湖元数据同步任务-4位随机数（字母和数字）”，也可以自定义名称。
元数据连接	选择已创建的Delta-Lake（有元数据）或Hudi（有元数据）连接。
数据库	填写需要进行元数据同步的数据库名称。
并发线程数	设置采集线程并发数。默认为3，1≤取值范围≤10。增加线程并发数，可以提高同步效率，但会占用更多源端连接和迁移中心 Agent（MgC Agent)所安装主机的计算资源。
自定义参数	可以通过自定义参数设置同步的特定表或分区、过滤条件等。如果需要同步的是阿里云 EMR环境中的元数据，请添加如下参数：参数名：conf 参数值：spark.sql.catalogImplementation=hive 如果源端是阿里云 EMR Delta 2.2版本并且是通过Delta 2.3版本依赖访问时，请添加如下参数：参数名：master 参数值：local 如果源端是阿里云 EMR Delta 2.1.0版本并且配置了Spark 2.4.8来处理Delta Lake数据，请添加如下参数：参数名：mgc.delta.spark.version 参数值：2 如果源端是阿里云 EMR并且配置了Spark 3来处理Delta Lake数据，请添加如下参数：参数名：jars 参数值：'/opt/apps/DELTALAKE/deltalake-current/spark3-delta/delta-core_2.12-.jar,/opt/apps/DELTALAKE/deltalake-current/spark3-delta/delta-storage-.jar' 注意：参数值需要根据实际环境目录和Delta Lake 的版本进行替换。

参数配置完成后，单击“确认”按钮，创建数据湖元数据同步任务完成。
在任务管理页签，可以查看已创建的数据湖元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”，可以修改任务参数配置。
单击操作列的“运行任务”，即可触发一次任务执行。每执行一次任务，会生成一条任务实例。
单击操作列的“查看实例”，进入任务实例管理页签。可以查看该任务的运行记录，以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时，在库表清单页签可以查看采集到的元数据列表。
数据湖元数据采集完成后，在元数据列表单击血缘列的“去采集”，可以创建血缘采集任务。

父主题：采集元数据

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨