- 最新动态
- 功能总览
- 产品介绍
- 快速入门
- 用户指南
-
工具指南
- 工具概述
- 下载并安装Edge
- 本地发现与采集
- 上云操作
- 云边协同
-
工具采集
- 创建工具采集任务
- 采集器管理
-
采集器参数配置说明
- K8S静态采集器(app-discovery-k8s)
- K8S conntrack采集器(app-discovery-k8s-conntrack)
- K8S pod网络采集器(app-discovery-k8s-pod-net)
- 进程与网络采集器(app-discovery-process-netstat)
- Windows进程与网络采集器(app-discovery-process-netstat-win)
- RabbitMQ采集器(app-discovery-rabbitmq)
- Kafka采集器(app-discovery-kafka)
- Eureka采集器(app-discovery-eureka)
- Redis采集器(app-discovery-redis)
- MongoDB采集器(app-discovery-mongodb)
- MySQL-generallog采集器(app-discovery-mysql-generallog)
- MySQL-jdbc采集器(app-discovery-mysql-jdbc)
- Nginx配置文件采集器(app-discovery-nginx)
- Cloud-vpc-log采集器(app-discovery-cloud-vpc-log)
- Nacos采集器(app-discovery-nacos)
- 应用配置采集器(app-discovery-application-config)
- 最佳实践
- 常见问题
-
最佳实践
- 主机迁移权限配置
- 主机迁移相关最佳实践
- 存储迁移相关最佳实践
- 目的端主机磁盘缩容
- 调整目的端磁盘分区
- 采集Azure容器AKS资源
- 采集AWS容器资源
-
大数据迁移后数据校验
- MaxCompute迁移至DLI数据校验
- MRS ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至CloudTable ClickHouse数据校验
- MRS Doris迁移至MRS Doris数据校验
- MRS Hive/CDH/EMR迁移至MRS Hive数据校验
- MaxCompute迁移至MRS Hive数据校验
- MRS HBase迁移至MRS HBase数据校验
- DeltaLake(有元数据)迁移至MRS DeltaLake数据校验
- DeltaLake(无元数据)迁移至MRS DeltaLake数据校验
- 不使用EIP场景下进行大数据数据迁移
-
常见问题
- 产品咨询
- 网络配置
-
主机迁移工作流
- 迁移工作流状态一直处于“运行中”,如何判断迁移是否正常?
- 迁移工作流状态为“运行中”,如何查看迁移进度?
- 迁移工作流步骤执行失败,提示“Edge is not accessible ...”,如何处理?
- 迁移工作流步骤执行失败,提示“server require to bind credenlial first ...”,如何处理?
- 大批量主机同时迁移时,可能出现的异常问题
- 主机迁移工作流错误码处理方法汇总
- VMware主机迁移时,出现报错如何处理?
- MgC主机工作流资源与SMS迁移服务器列表之间的映射关系
- sudo用户进行主机迁移时,主机迁移工作流校验源端环境失败
- 主机迁移运行到“启动迁移Agent”步骤时报错:System.OutOfMemoryException
- 主机迁移工作流步骤执行失败,失败原因:SMS-Workflow.0503:SMS migration task failed 'SMS.xxxx'
-
存储迁移
- 存储迁移的约束与限制有哪些?
- 迁移对源端和目的端有什么要求?
- 进行存储迁移时,如何选择集群规格?
- 影响大对象迁移速度的关键因素有哪些?
- 影响小对象迁移速度的关键因素有哪些?
- 如何监控和查看影响迁移速度的关键指标?
- 为什么存储迁移工作流进度长时间没有变化?
- 将HTTP/HTTPS数据源迁移到OBS时,如果存在URL不同但对象名称相同的情况,会如何处理?
- OBS迁移到NAS,如果源端存在同名但大小写不同的对象,会如何处理?
- 关于OBS、NAS和SMB存储系统之间进行异构迁移的对象长度限制说明
- 如何解决迁移集群创建失败问题
- 如何获取微软云的访问凭证
- 存储工作流执行失败,列表提示“COMPARISON_ATTRIBUTE_NOT_SAME”,如何处理?
- 存储类型介绍
- 可用区迁移
- TCO任务
- 资源采集
- 规格评估
- 大数据数据迁移
- 大数据校验
- 错误码描述和处理方法
- 文档下载
- 通用参考
链接复制成功!
创建并运行数据湖元数据同步任务
利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。
Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。
前提条件
操作步骤
- 登录迁移中心管理控制台。
- 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。
- 在元数据采集区域,单击“创建任务 > 数据湖元数据同步”按钮,右侧弹出创建任务-数据湖元数据同步窗口。
- 根据表1,配置数据湖元数据同步任务参数。
表1 元数据同步任务参数配置说明 参数
配置说明
任务名称
默认创建名称为“数据湖元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。
元数据连接
数据库
填写需要进行元数据同步的数据库名称。
并发线程数
设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和迁移工具(Edge)所安装主机的计算资源。
自定义参数
可以通过自定义参数设置同步的特定表或分区、过滤条件等。
- 如果需要同步的是阿里云 EMR环境中的元数据,请添加如下参数:
- 参数名:conf
- 参数值:spark.sql.catalogImplementation=hive
- 如果源端是阿里云 EMR Delta 2.2版本并且是通过Delta 2.3版本依赖访问时,请添加如下参数:
- 参数名:master
- 参数值:local
- 如果源端是阿里云 EMR Delta 2.1.0版本并且配置了Spark 2.4.8来处理Delta Lake数据,请添加如下参数:
- 参数名:mgc.delta.spark.version
- 参数值:2
- 如果源端是阿里云 EMR并且配置了Spark 3来处理Delta Lake数据,请添加如下参数:
- 参数名:jars
- 参数值:'/opt/apps/DELTALAKE/deltalake-current/spark3-delta/delta-core_2.12-*.jar,/opt/apps/DELTALAKE/deltalake-current/spark3-delta/delta-storage-*.jar'
注意:
参数值需要根据实际环境目录和Delta Lake 的版本进行替换。
- 如果需要同步的是阿里云 EMR环境中的元数据,请添加如下参数:
- 参数配置完成后,单击“确认”按钮,创建数据湖元数据同步任务完成。
- 单击“采集任务”,进入元数据采集页面。在任务管理页签,可以查看已创建的数据湖元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。
- 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
- 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
- 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
父主题: 采集元数据