- 最新动态
- 功能总览
- 产品介绍
- 快速入门
- 用户指南
-
工具指南
- 工具概述
- 下载并安装MgC Agent(原Edge)
- 本地发现与采集
- 上云操作
- 云边协同
-
工具采集
- 创建工具采集任务
- 采集器管理
-
采集器参数配置说明
- K8S静态采集器(app-discovery-k8s)
- K8S conntrack采集器(app-discovery-k8s-conntrack)
- K8S pod网络采集器(app-discovery-k8s-pod-net)
- 进程与网络采集器(app-discovery-process-netstat)
- Windows进程与网络采集器(app-discovery-process-netstat-win)
- RabbitMQ采集器(app-discovery-rabbitmq)
- Kafka采集器(app-discovery-kafka)
- Eureka采集器(app-discovery-eureka)
- Redis采集器(app-discovery-redis)
- MongoDB采集器(app-discovery-mongodb)
- MySQL-generallog采集器(app-discovery-mysql-generallog)
- MySQL-jdbc采集器(app-discovery-mysql-jdbc)
- Nginx配置文件采集器(app-discovery-nginx)
- Cloud-vpc-log采集器(app-discovery-cloud-vpc-log)
- Nacos采集器(app-discovery-nacos)
- 应用配置采集器(app-discovery-application-config)
- 最佳实践
-
常见问题
- 安装MgC Agent(原Edge)的主机有哪些要求?
- 以兼容性模式运行程序
- MgC Agent(原Edge)设备离线原因
- MgC Agent(原Edge)安装完成后,无法启动
- 如何升级MgC Agent(原Edge)至最新版本?
- 如何卸载MgC Agent(原Edge)?
- 如何重启MgC Agent(原Edge)?
- 如何查询MgC Agent(原Edge)当前版本?
- 如何获取Linux版本的MgC Agent(原Edge)各种运行日志?
- 采集失败,提示:The collector is not installed如何处理?
- 大数据-Hive Metastore凭证文件获取方法
- MgC Agent(原Edge)安装端口被占用,导致无法安装,如何处理?
- AK/SK验证失败,如何处理?
- Windows服务器WinRM服务配置与故障排查
- 新增大数据校验数据连接时,凭证列表数据缺失
-
最佳实践
- 主机迁移权限配置
- 主机迁移相关最佳实践
- 存储迁移相关最佳实践
- 目的端主机磁盘缩容
- 调整目的端磁盘分区
- 采集Azure容器AKS资源
- 采集AWS容器资源
-
大数据迁移后数据校验
- MaxCompute迁移至DLI数据校验
- MRS ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至MRS ClickHouse数据校验
- 阿里云 ClickHouse迁移至CloudTable ClickHouse数据校验
- MRS Doris迁移至MRS Doris数据校验
- MRS Hive/CDH/EMR迁移至MRS Hive数据校验
- MaxCompute迁移至MRS Hive数据校验
- MRS HBase迁移至MRS HBase数据校验
- DeltaLake(有元数据)迁移至MRS DeltaLake数据校验
- DeltaLake(无元数据)迁移至MRS DeltaLake数据校验
- 不使用EIP场景下进行大数据数据迁移
-
常见问题
- 产品咨询
- 网络配置
-
主机迁移工作流
- 迁移工作流状态一直处于“运行中”,如何判断迁移是否正常?
- 迁移工作流状态为“运行中”,如何查看迁移进度?
- 迁移工作流步骤执行失败,提示“Edge is not accessible ...”,如何处理?
- 迁移工作流步骤执行失败,提示“server require to bind credenlial first ...”,如何处理?
- 大批量主机同时迁移时,可能出现的异常问题
- 主机迁移工作流错误码处理方法汇总
- VMware主机迁移时,出现报错如何处理?
- MgC主机工作流资源与SMS迁移服务器列表之间的映射关系
- 为什么MgC迁移进度和SMS迁移进度显示不一致?
- sudo用户进行主机迁移时,主机迁移工作流校验源端环境失败
- 主机迁移运行到“启动迁移Agent”步骤时报错:System.OutOfMemoryException
- 主机迁移工作流步骤执行失败,失败原因:SMS-Workflow.0503:SMS migration task failed 'SMS.xxxx'
-
存储迁移
- 存储迁移的约束与限制有哪些?
- 迁移对源端和目的端有什么要求?
- 进行存储迁移时,如何选择集群规格?
- 影响大对象迁移速度的关键因素有哪些?
- 影响小对象迁移速度的关键因素有哪些?
- 如何监控和查看影响迁移速度的关键指标?
- 为什么存储迁移工作流进度长时间没有变化?
- 将HTTP/HTTPS数据源迁移到OBS时,如果存在URL不同但对象名称相同的情况,会如何处理?
- OBS迁移到NAS,如果源端存在同名但大小写不同的对象,会如何处理?
- 关于OBS、NAS和SMB存储系统之间进行异构迁移的对象长度限制说明
- 如何解决迁移集群创建失败问题
- 如何获取微软云的访问凭证
- 存储工作流执行失败,列表提示“COMPARISON_ATTRIBUTE_NOT_SAME”,如何处理?
- 存储类型介绍
- 迁移任务执行失败如何处理?
- 可用区迁移
- TCO任务
- 资源采集
- 规格评估
- 大数据数据迁移
- 大数据校验
- 错误码描述和处理方法
- 文档下载
- 通用参考
链接复制成功!
创建源端组件连接
对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。
目前支持创建源端连接的大数据组件包括:
- Doris
- HBase
- ClickHouse
- Hive Metastore
- Delta Lake(有元数据)
- Delta Lake(无元数据)
- Hudi(有元数据)
- Hudi(无元数据)
操作步骤
- 登录迁移中心管理控制台。
- 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。在页面左上角的当前项目下拉列表中选择迁移项目。
- 在功能入口区域,单击“连接管理”,进入连接管理页面。
- 单击页面右上角的“新增连接”,右侧弹出新增连接窗口。
- 根据实际情况选择大数据组件,单击“下一步”,进入详细配置页面。
- 根据对应的参数配置说明,配置执行机参数。
- Doris连接参数配置说明
- HBase连接参数配置说明
- ClickHouse组件参数配置说明
- Hive Metastore连接参数配置说明
- Delta Lake(有元数据)连接参数配置说明
- Delta Lake(无元数据)连接参数配置说明
- Hudi(有元数据)连接参数配置说明
- Hudi(无元数据)连接参数配置说明
表1 Doris连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“Doris-4位随机数(字母和数字)”,也可以自定义名称。
Doris凭证
选择在Edge添加的源端Doris凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-Doris”。
数据库地址
填写连接到源端Doris集群部署的服务器IP地址。
数据库端口
填写连接到源端Doris集群部署的服务器的端口。默认为3306。
数据库名
填写源端Doris数据库名称。
表2 HBase连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“HBase-4位随机数(字母和数字)”,也可以自定义名称。
HBase凭证
选择在Edge添加的源端HBase凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-HBase”。
安全集群
选择是否部署在安全集群下。
Zookeeper节点IP
填写连接到源端Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。
Zookeepeer连接端口
填写连接到源端Zookeepeer的端口。
HBase 版本
选择源端HBase的版本。
表3 ClickHouse连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。
ClickHouse凭证(可选)
选择在Edge添加的源端ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。
安全集群
选择是否部署在安全集群下。
ClickHouse Server IP
填写连接到源端ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。
HTTP端口
非安全集群下,与源端ClickHouse 服务器通信的 HTTP 端口。默认为8123。
HTTP SSL/TLS端口
安全集群下,与源端ClickHouse 服务器通信的HTTPS 端口。
表4 Hive Metastore连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“Hive-Metastore-4位随机数(字母和数字)”,也可以自定义名称。
启用安全连接
选择是否启用安全连接。
- MetaStore在非安全集群下,可以不启用安全连接。
- MetaStore在安全集群下,需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。
Hive版本
选择源端Hive的实际版本。
注意:如果源端Hive为2.1.1版本,此处需要选择1.x版本。
MetaStore节点IP
填写连接MetaStore的IP地址。
MetaStore Thrift服务端口
填写连接MetaStore的端口,默认为9083。
启用元数据仓连接
在增量数据校验中,如果通过Metastore查询,当分区数量超过30,000时,可能会因为将所有分区信息加载到内存中而导致内存溢出(OOM)。因此,使用MySQL作为元数据仓可以有效地解决这一问题。
- 不启用:系统通过MetaStore查询Hive表的分区信息。
- 启用:配置MySQL作为元数据仓,系统将通过MySQL查询Hive表的分区信息。启用后,需要配置如下参数:
- 元仓类型:目前仅支持MySQL作为元数据仓。
- MySQL凭证:选择访问MySQL数据库的认证信息。认证信息需要添加到Edge然后同步到MgC,方法请参考添加资源凭证。
- MySQL节点IP:输入MySQL数据库服务器的IP地址。
- MySQL服务端口:输入MySQL数据库服务的端口号。
- 数据库名:输入存储Hive表元数据的数据库名称。
说明:请确保填写的MySQL凭证、节点IP、服务端口和数据库名与Hive实际使用的MySQL数据库相匹配,否则会导致数据校验失败。
表5 Delta Lake(有元数据)连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“Delta-Lake-有元数据-4位随机数(字母和数字)”,也可以自定义名称。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
表6 Delta Lake(无元数据)连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“Delta-Lake-无元数据-4位随机数(字母和数字)”,也可以自定义名称。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
表7 Hudi(有元数据)连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“Hudi-有元数据-4位随机数(字母和数字)”,也可以自定义名称。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
表8 Hudi(无元数据)连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“Hudi-无元数据-4位随机数(字母和数字)”,也可以自定义名称。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
- 参数配置完成后,单击“测试连接”,系统会校验配置信息并与组件建立连接,测试通过代表与组件连接成功。
- 测试连接通过后,单击“确认”按钮,创建大数据组件连接完成。
- 在连接管理页面,可以查看创建的连接列表以及基本信息。单击操作列的“修改连接”,可以修改连接参数配置。