创建并运行元数据同步任务
利用元数据连接,创建元数据同步任务,将源端数据库的库、表、字段信息同步至迁移中心。
支持创建元数据同步任务的连接类型如下:
- Hive Metastore连接
- Doris连接
- HBase连接
- ClickHouse连接
- Hudi(有元数据)连接
- Hudi(无元数据)连接
- MaxCompute连接
- 阿里云云数据库ClickHouse连接
您还可以通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。
前提条件
已创建元数据连接。
操作步骤
- 登录迁移中心管理控制台。
- 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。
- 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。
- 根据表1,配置元数据同步任务参数。
表1 元数据同步任务参数配置说明 参数
配置说明
任务名称
默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。
元数据连接
根据实际需求,选择已创建的元数据连接类型。
数据库
填写需要进行元数据同步的数据库名称。
须知:元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。其他元数据连接类型,该参数为可选参数,不填则代表同步全部数据库。
并发线程数
设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和迁移工具(Edge)所安装主机的计算资源。
- 参数配置完成后,单击“确认”按钮,创建元数据同步任务完成。
- 单击“采集任务”,进入元数据采集页面。在任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。
- 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
- 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
- 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。