迁移中心 MGC
迁移中心 MGC
- 最新动态
- 功能总览
- 产品介绍
- 快速入门
- 用户指南
-
迁移中心Agent操作指南
- 迁移中心Agent概述
- 下载并安装MgC Agent(原Edge)
- 本地发现与采集
- 上云操作
- 云边协同
-
工具采集
- 创建工具采集任务
- 采集器管理
-
采集器参数配置说明
- K8S静态采集器(app-discovery-k8s)
- K8S conntrack采集器(app-discovery-k8s-conntrack)
- K8S pod网络采集器(app-discovery-k8s-pod-net)
- 进程与网络采集器(app-discovery-process-netstat)
- Windows进程与网络采集器(app-discovery-process-netstat-win)
- RabbitMQ采集器(app-discovery-rabbitmq)
- Kafka采集器(app-discovery-kafka)
- Eureka采集器(app-discovery-eureka)
- Redis采集器(app-discovery-redis)
- MongoDB采集器(app-discovery-mongodb)
- MySQL-generallog采集器(app-discovery-mysql-generallog)
- MySQL-jdbc采集器(app-discovery-mysql-jdbc)
- Nginx配置文件采集器(app-discovery-nginx)
- Cloud-vpc-log采集器(app-discovery-cloud-vpc-log)
- Nacos采集器(app-discovery-nacos)
- 应用配置采集器(app-discovery-application-config)
- 最佳实践
-
常见问题
- 安装MgC Agent(原Edge)的主机有哪些要求?
- 以兼容性模式运行程序
- MgC Agent(原Edge)设备离线原因
- MgC Agent(原Edge)安装完成后,无法启动
- 如何升级MgC Agent(原Edge)至最新版本?
- 如何卸载MgC Agent(原Edge)?
- 如何重启MgC Agent(原Edge)?
- 如何查询MgC Agent(原Edge)当前版本?
- 如何获取Linux版本的MgC Agent(原Edge)各种运行日志?
- 采集失败,提示:The collector is not installed如何处理?
- 大数据-Hive Metastore凭证文件获取方法
- MgC Agent(原Edge)安装端口被占用,导致无法安装,如何处理?
- AK/SK验证失败,如何处理?
- Windows服务器WinRM服务配置与故障排查
- 新增大数据校验数据连接时,凭证列表数据缺失
-
最佳实践
- 主机迁移权限配置
- 主机迁移相关最佳实践
- 存储迁移相关最佳实践
- 目的端主机磁盘缩容
- 调整目的端磁盘分区
- 采集Azure容器AKS资源
- 采集谷歌云 GCP容器GKE资源
- 采集AWS容器资源
- 自建Oracle调研评估指导
-
大数据迁移后数据校验
- MaxCompute迁移至DLI数据校验
- MRS ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至CloudTable ClickHouse数据校验
- MRS Doris迁移至MRS Doris数据校验
- MRS Hive/CDH/EMR迁移至MRS Hive数据校验
- MaxCompute迁移至MRS Hive数据校验
- MRS HBase迁移至MRS HBase数据校验
- DeltaLake(有元数据)迁移至MRS DeltaLake数据校验
- DeltaLake(无元数据)迁移至MRS DeltaLake数据校验
- 不使用EIP场景下进行大数据数据迁移
- 大数据迁移驾驶舱
-
常见问题
- 产品咨询
- 网络配置
-
主机迁移工作流
- 迁移工作流状态为“运行中”,如何查看迁移进度?
- 迁移工作流状态一直处于“运行中”,如何判断迁移是否正常?
- 迁移工作流步骤执行失败,提示“Edge is not accessible ...”,如何处理?
- 迁移工作流步骤执行失败,提示“server require to bind credenlial first ...”,如何处理?
- 大批量主机同时迁移时,可能出现的异常问题
- 主机迁移工作流错误码处理方法汇总
- VMware主机迁移时,出现报错如何处理?
- MgC主机工作流资源与SMS迁移服务器列表之间的映射关系
- 为什么MgC迁移进度和SMS迁移进度显示不一致?
- sudo用户进行主机迁移时,主机迁移工作流校验源端环境失败
- 主机迁移运行到“启动迁移Agent”步骤时报错:System.OutOfMemoryException
- 主机迁移工作流步骤执行失败,失败原因:SMS-Workflow.0503:SMS migration task failed 'SMS.xxxx'
- 迁移完成后,目的端主机有磁盘处于未挂载状态
-
存储迁移
- 存储迁移的约束与限制有哪些?
- 迁移对源端和目的端有什么要求?
- 进行存储迁移时,如何选择集群规格?
- 影响大对象迁移速度的关键因素有哪些?
- 影响小对象迁移速度的关键因素有哪些?
- 如何监控和查看影响迁移速度的关键指标?
- 为什么存储迁移工作流进度长时间没有变化?
- 将HTTP/HTTPS数据源迁移到OBS时,如果存在URL不同但对象名称相同的情况,会如何处理?
- OBS迁移到NAS,如果源端存在同名但大小写不同的对象,会如何处理?
- 关于OBS、NAS和SMB存储系统之间进行异构迁移的对象长度限制说明
- 如何解决迁移集群创建失败问题
- 如何获取微软云的访问凭证
- 存储工作流执行失败,列表提示“COMPARISON_ATTRIBUTE_NOT_SAME”,如何处理?
- 存储类型介绍
- 迁移任务执行失败如何处理?
- 可用区迁移
- 上云调研
- 资源采集
- 规格评估
- 大数据数据迁移
- 大数据校验
- 错误码描述和处理方法
- 通用参考
本文导读
链接复制成功!
大数据校验概述
迁移中心 MgC为多种大数据计算/存储引擎,如Hive、Hbase、Doris和MaxCompute等,提供了一致性校验方法。通过一致性校验,您可以更加放心地进行大数据迁移操作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。
注意事项
- 创建的源端统计任务和目的端统计任务的统计方式必须保持一致。
- HBase安全集群任务与非安全集群任务不能同时执行。HBase安全集群需要加载认证信息,非安全集群连接时需要清除安全集群的认证信息,因此不能同时执行。
- 当源端服务(包含但不限于Lindorm、HBase)因欠费被锁定时,虽然可以正常创建数据连接和校验任务,但由于服务锁定限制了数据访问和操作权限,最终会导致校验任务无法正常执行。在进行数据校验前,请确保源端服务未因欠费被锁定,以避免权限问题。如果服务被锁定,请及时补缴费用以解除锁定。确认服务恢复正常后,重新尝试执行数据校验任务。
- 在进行Hive 2.x与Hive 3.x版本间数据校验时,由于Hive 2.x版本在查询固定长度字符串类型char(N)数据时,如果实际数据长度不满足N长度,Hive会以空格补齐至N长度。而Hive 3.x版本在查询时不会进行这种补齐操作。这可能导致在不同版本间比较结果时出现差异。为了避免因版本差异导致的数据不一致问题,建议使用Beeline作为客户端工具进行作业对数。
- 在完成MRS到MRS集群数据迁移后,如果源端和目的端都使用YARN模式进行校验,需要分开执行校验任务,确保一个任务执行完成后才能执行另一个任务。
- 在进行对数任务时,不支持使用 MRS 3.3.0 及以上版本集群节点的ECS作为执行机,会导致对数任务执行失败。
约束与限制
- 创建EMR Delta Lake到MRS Delta Lake数据校验任务存在以下约束与限制:
- 源端EMR环境的Spark版本为3.3.1时,支持Delta Lake(有元数据)和Delta Lake(无元数据)的数据校验。
- 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。
- Hbase校验不支持纯冷数据表。
- 校验任务不支持跨天执行,执行过程中如果跨0点将导致校验结果异常,请合理规划任务以避免跨天运行。
- 在进行ClickHouse数据校验时,如果源端阿里云的ClickHouse版本为21.8.15.7,目的端华为云的ClickHouse版本为23.3.2.37,由于这两个版本在处理IPv4和IPv6字段类型以及相关函数计算结果上存在差异,因此无法进行字段校验。
- 在执行Hive数据的日级别增量、小时级增量以及指定日期的校验时,如果分区字段为date类型,且分区值的格式不是标准的YYYY-MM-DD时,系统目前不支持对这种场景进行数据校验。
- 不支持两端均为HBase 2.x不同版本的安全集群数据校验,因为不同版本间存在版本兼容性限制、安全认证机制差异、协议和接口不一致以及特性支持和配置不同等问题,都会影响校验结果。
校验方式说明
- 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。
- 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。
- 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小时内自动进行多次校验,可以持续关注数据一致性变化情况。第二日0点自动停止任务。
- 指定日期校验:仅适用于分区为年月日格式的分区表,支持周期性指定一个或多个连续日期分区进行校验。分区格式不为年月日的表不会进行校验。
- 指定时间校验:用户可以选择一个时间段,校验该时间段内的数据。只能选择当前时间之前的时间段进行校验。
支持的源端、目的端组件
源端组件 |
目的端组件 |
---|---|
|
|
各组件支持的校验方式
组件 |
支持的校验方式 |
---|---|
Hive |
|
DLI |
|
MaxCompute |
|
Doris |
|
Hbase |
|
ClickHouse |
全量校验 |
阿里云云数据库ClickHouse |
全量校验 |
CloudTable(HBase) |
|
CloudTable(ClickHouse) |
全量校验 |
Delta |
|
Hudi |
|
父主题: 大数据校验