- 最新动态
- 功能总览
- 产品介绍
- 快速入门
- 用户指南
-
工具指南
- 工具概述
- 下载并安装MgC Agent(原Edge)
- 本地发现与采集
- 上云操作
- 云边协同
-
工具采集
- 创建工具采集任务
- 采集器管理
-
采集器参数配置说明
- K8S静态采集器(app-discovery-k8s)
- K8S conntrack采集器(app-discovery-k8s-conntrack)
- K8S pod网络采集器(app-discovery-k8s-pod-net)
- 进程与网络采集器(app-discovery-process-netstat)
- Windows进程与网络采集器(app-discovery-process-netstat-win)
- RabbitMQ采集器(app-discovery-rabbitmq)
- Kafka采集器(app-discovery-kafka)
- Eureka采集器(app-discovery-eureka)
- Redis采集器(app-discovery-redis)
- MongoDB采集器(app-discovery-mongodb)
- MySQL-generallog采集器(app-discovery-mysql-generallog)
- MySQL-jdbc采集器(app-discovery-mysql-jdbc)
- Nginx配置文件采集器(app-discovery-nginx)
- Cloud-vpc-log采集器(app-discovery-cloud-vpc-log)
- Nacos采集器(app-discovery-nacos)
- 应用配置采集器(app-discovery-application-config)
- 最佳实践
-
常见问题
- 安装MgC Agent(原Edge)的主机有哪些要求?
- 以兼容性模式运行程序
- MgC Agent(原Edge)设备离线原因
- MgC Agent(原Edge)安装完成后,无法启动
- 如何升级MgC Agent(原Edge)至最新版本?
- 如何卸载MgC Agent(原Edge)?
- 如何重启MgC Agent(原Edge)?
- 如何查询MgC Agent(原Edge)当前版本?
- 如何获取Linux版本的MgC Agent(原Edge)各种运行日志?
- 采集失败,提示:The collector is not installed如何处理?
- 大数据-Hive Metastore凭证文件获取方法
- MgC Agent(原Edge)安装端口被占用,导致无法安装,如何处理?
- AK/SK验证失败,如何处理?
- Windows服务器WinRM服务配置与故障排查
- 新增大数据校验数据连接时,凭证列表数据缺失
-
最佳实践
- 主机迁移权限配置
- 主机迁移相关最佳实践
- 存储迁移相关最佳实践
- 目的端主机磁盘缩容
- 调整目的端磁盘分区
- 采集Azure容器AKS资源
- 采集AWS容器资源
-
大数据迁移后数据校验
- MaxCompute迁移至DLI数据校验
- MRS ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至CloudTable ClickHouse数据校验
- MRS Doris迁移至MRS Doris数据校验
- MRS Hive/CDH/EMR迁移至MRS Hive数据校验
- MaxCompute迁移至MRS Hive数据校验
- MRS HBase迁移至MRS HBase数据校验
- DeltaLake(有元数据)迁移至MRS DeltaLake数据校验
- DeltaLake(无元数据)迁移至MRS DeltaLake数据校验
- 不使用EIP场景下进行大数据数据迁移
-
常见问题
- 产品咨询
- 网络配置
-
主机迁移工作流
- 迁移工作流状态一直处于“运行中”,如何判断迁移是否正常?
- 迁移工作流状态为“运行中”,如何查看迁移进度?
- 迁移工作流步骤执行失败,提示“Edge is not accessible ...”,如何处理?
- 迁移工作流步骤执行失败,提示“server require to bind credenlial first ...”,如何处理?
- 大批量主机同时迁移时,可能出现的异常问题
- 主机迁移工作流错误码处理方法汇总
- VMware主机迁移时,出现报错如何处理?
- MgC主机工作流资源与SMS迁移服务器列表之间的映射关系
- 为什么MgC迁移进度和SMS迁移进度显示不一致?
- sudo用户进行主机迁移时,主机迁移工作流校验源端环境失败
- 主机迁移运行到“启动迁移Agent”步骤时报错:System.OutOfMemoryException
- 主机迁移工作流步骤执行失败,失败原因:SMS-Workflow.0503:SMS migration task failed 'SMS.xxxx'
-
存储迁移
- 存储迁移的约束与限制有哪些?
- 迁移对源端和目的端有什么要求?
- 进行存储迁移时,如何选择集群规格?
- 影响大对象迁移速度的关键因素有哪些?
- 影响小对象迁移速度的关键因素有哪些?
- 如何监控和查看影响迁移速度的关键指标?
- 为什么存储迁移工作流进度长时间没有变化?
- 将HTTP/HTTPS数据源迁移到OBS时,如果存在URL不同但对象名称相同的情况,会如何处理?
- OBS迁移到NAS,如果源端存在同名但大小写不同的对象,会如何处理?
- 关于OBS、NAS和SMB存储系统之间进行异构迁移的对象长度限制说明
- 如何解决迁移集群创建失败问题
- 如何获取微软云的访问凭证
- 存储工作流执行失败,列表提示“COMPARISON_ATTRIBUTE_NOT_SAME”,如何处理?
- 存储类型介绍
- 迁移任务执行失败如何处理?
- 可用区迁移
- TCO任务
- 资源采集
- 规格评估
- 大数据数据迁移
- 大数据校验
- 错误码描述和处理方法
- 文档下载
- 通用参考
链接复制成功!
MRS Hive/CDH/EMR迁移至MRS Hive数据校验
本文主要介绍MRS Hive版本间数据迁移以及将自建CDH/EMR环境上的数据迁移至华为云MRS Hive之后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。
准备工作
需要先在源端内网环境中安装用于配合数据校验的工具MgC Agent(原Edge)并注册用户,方法请参见安装Linux版本的MgC Agent。
操作步骤
- 登录迁移中心管理控制台。在总览页面,单击“创建迁移项目”。
- 在弹出的窗口中,自定义项目名称,仔细查看并了解项目类型的适用场景后,选择项目类型,单击“确认”。
在左侧导航栏的“配置管理 > 项目管理”页签可以查看和管理已创建的项目。
- 创建项目完成后,参考连接迁移中心,将MgC Agent与云端MgC控制台建立连接。
- 连接成功后,需要在MgC Agent上分别添加源端“MRS/CDH执行机”凭证和目的端“MRS执行机”凭证,认证方式选择“用户名/密码”。凭证的添加方法请参考添加资源凭证。
如果源端为MRS Hive且在安全集群下(开启Kerberos认证),还需要在MgC Agent上添加源端Hive Metastore凭证,类型选择“大数据-Hive Metastore”,认证方式选择“用户名/密钥”。凭证文件需要同时上传core-site.xml、hivemetastore-site.xml、hive-site.xml、krb5.conf、user.keytab五个文件。获取方式参见大数据-Hive Metastore凭证文件获取方法。
- 在MgC控制台左侧导航栏选择“调研 > 大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择步骤2.创建的项目。
- 在元数据采集区域,单击“创建连接”,右侧弹出创建连接窗口。
- 连接类型选择“Hive Metastore”,单击“下一步”。
- 根据Hive Metastore连接参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。
表1 Hive Metastore连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“Hive-Metastore-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择步骤3.与MgC建立连接的MgC Agent。
启用安全连接
选择是否启用安全连接。
- MetaStore在非安全集群下,可以不启用安全连接。
- MetaStore在安全集群下,需要启用安全连接并选择凭证。凭证选择步骤4.在MgC Agent侧所添加的源端Hive Metastore凭证。
Hive版本
选择源端Hive的实际版本。
MetaStore节点IP
填写连接MetaStore的IP地址。
MetaStore Thrift服务端口
填写连接MetaStore的端口,默认为9083。
- 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。
- 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。
表2 元数据同步任务参数配置说明 参数
配置说明
任务名称
默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。
元数据连接
选择步骤8.创建的元数据连接。
数据库(可选)
填写需要进行元数据同步的数据库名称。不填则代表同步全部数据库。
并发线程数
设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和MgC Agent所安装主机的计算资源。
- 在元数据采集区域,单击“采集任务”,进入元数据采集页面。
- 在任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
- 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
- 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。首次使用大数据校验功能时,需要先选择并启用迁移中心Agent。单击“选择并启用迁移中心Agent”按钮,弹出选择迁移中心Agent窗口。在下拉列表中,选择步骤3.与迁移中心连接成功的MgC Agent。
在进行大数据校验时,请确保MgC Agent一直处于在线并启用状态。
- 在功能入口区域,单击“表管理”,进入表管理页面的表组页签。
- 单击“新增表组”,弹出新增表组窗口。根据新增表组参数说明,配置参数后,单击“确认”按钮,创建表组。
表3 新增表组参数说明 参数
说明
表组名
用户自定义
元数据连接
选择步骤8.创建的元数据连接。
注意:表组中的所有表必须来源于同一个元数据来源。
校验标准
选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。
说明(可选)
您可以输入用于区分表组的说明。
- 在表管理页面,选择库表清单页签,勾选要加入同一表组的数据表,单击列表上方的“表组管理 > 批量加入组”,在弹出的修改表组窗口中,选择要加入的表组,单击“确认”。
如果需要新增数据表,可以通过导入数据表的方式添加,方法请参考导入数据表并加入表组。
- 分别创建源端执行机连接和目的端执行机连接,方法请参考创建执行机连接。执行机凭证分别选择步骤4.在MgC Agent侧添加的源端和目的端执行机凭证。
- 在MgC控制台,分别创建源端和目的端Hive统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤步骤16.创建的表组。
- 任务类型请选择大数据组件中的“Hive”。
- 统计方式按实际需求选择,各统计方式说明请参见校验方式说明。
- 任务类型请选择大数据组件中的“Hive”。
- 当源端与目的端的统计任务都执行完成后(实例状态为“已完成”),在校验结果页面可以查看并导出任务的执行结果,方法请参考查看并导出校验结果。