文档首页/ 迁移中心 MgC/ 用户指南/ 大数据校验/ 创建源端连接/ 创建源端组件连接

更新时间：2025-09-16 GMT+08:00

查看PDF

创建源端组件连接

对大数据组件数据进行一致性校验时，需要与大数据组件建立连接，用于数据查询。

目前支持创建源端连接的大数据组件包括：

Doris
HBase
ClickHouse
Hive Metastore
Delta Lake（有元数据）
Delta Lake（无元数据）
Hudi（有元数据）
Hudi（无元数据）

操作步骤

登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。
在左侧导航栏选择“实施 > 大数据校验”，进入大数据校验页面。
首次使用大数据校验功能时，需要先启用MgC Agent。单击“选择并启用迁移中心Agent”按钮，在弹窗的下拉列表中，选择完成准备工作时与迁移中心连接成功的MgC Agent。

在进行大数据校验时，请确保MgC Agent一直处于在线并启用状态。
在功能入口区域，单击“大数据迁移准备”，进入大数据迁移准备页面。
选择“连接管理”，单击“创建连接”，右侧弹出新增连接窗口。

图1 创建连接
根据实际情况选择大数据组件，单击“下一步”，进入详细配置页面。

根据对应的参数配置说明，配置执行机参数。

Doris连接参数配置说明
HBase连接参数配置说明
ClickHouse组件参数配置说明
Hive Metastore连接参数配置说明
Delta Lake（有元数据）连接参数配置说明
Delta Lake（无元数据）连接参数配置说明
Hudi（有元数据）连接参数配置说明
Hudi（无元数据）连接参数配置说明

表1 Doris连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Doris-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
Doris凭证	选择在MgC Agent添加的源端Doris凭证。凭证的添加方式请参考添加资源凭证，类型选择“大数据-Doris”。
数据库地址	填写连接到源端Doris集群部署的服务器IP地址。
数据库端口	填写连接到源端Doris集群部署的服务器的端口。默认为3306。
数据库名	填写源端Doris数据库名称。
采集资源使用信息	可选参数。开启后，通过该连接创建的统计任务将收集大数据服务的资源使用信息，这些信息将用于MgC上的报告生成，以便于进行性能优化。须知：使用该功能，需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限（ReadOnly）。如果所选凭证与登录迁移中心 MgC的账号凭证相同，请勾选“所选凭证与登录迁移中心凭证相同”，系统将根据所选的区域，自动查询账号在该区域下的项目。区域：选择需要校验的数据所在区域/项目。项目：选择需要校验的数据所在项目。集群ID：输入需要校验的数据所在集群ID。如果所选凭证与登录迁移中心 MgC的账号凭证不同，请手动输入如下参数信息：区域ID：输入需要校验的数据所在区域ID。例如，区域为“华南-广州”，则输入“cn-south-1” 项目ID：输入与区域对应的项目ID。集群ID：输入需要校验的数据所在集群ID。说明：区域ID和项目ID可以在“我的凭证 > API凭证”查看。集群ID的获取方法请参考获取MRS集群ID。

表2 HBase连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“HBase-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
HBase凭证	选择在MgC Agent添加的源端HBase凭证。凭证的添加方式请参考添加资源凭证，类型选择“大数据-HBase”。
安全集群	选择是否部署在安全集群下。
Zookeeper节点IP	填写连接到源端Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。
Zookeeper连接端口	填写连接到源端Zookeeper的端口。
HBase 版本	选择源端HBase的版本。
采集资源使用信息	可选参数。开启后，通过该连接创建的统计任务将收集大数据服务的资源使用信息，这些信息将用于MgC上的报告生成，以便于进行性能优化。须知：使用该功能，需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限（ReadOnly）。如果所选凭证与登录迁移中心 MgC的账号凭证相同，请勾选“所选凭证与登录迁移中心凭证相同”，系统将根据所选的区域，自动查询账号在该区域下的项目。区域：选择需要校验的数据所在区域/项目。项目：选择需要校验的数据所在项目。集群ID：输入需要校验的数据所在集群ID。如果所选凭证与登录迁移中心 MgC的账号凭证不同，请手动输入如下参数信息：区域ID：输入需要校验的数据所在区域ID。例如，区域为“华南-广州”，则输入“cn-south-1” 项目ID：输入与区域对应的项目ID。集群ID：输入需要校验的数据所在集群ID。说明：区域ID和项目ID可以在“我的凭证 > API凭证”查看。集群ID的获取方法请参考获取MRS集群ID。

表3 ClickHouse连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“ClickHouse-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
ClickHouse凭证（可选）	选择在MgC Agent添加的源端ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。
安全集群	选择是否部署在安全集群下。
ClickHouse Server IP	填写连接到源端ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。
HTTP端口	非安全集群下，与源端ClickHouse 服务器通信的 HTTP 端口。可以登录源端集群的FusionInsight Manager，选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”，搜索“http_port”参数获取。
HTTP SSL/TLS端口	安全集群下，与源端ClickHouse 服务器通信的HTTPS 端口。可以登录源端集群的FusionInsight Manager，选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”，搜索“https_port”参数获取。
采集资源使用信息	可选参数。开启后，通过该连接创建的统计任务将收集大数据服务的资源使用信息，这些信息将用于MgC上的报告生成，以便于进行性能优化。须知：使用该功能，需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限（ReadOnly）。如果所选凭证与登录迁移中心 MgC的账号凭证相同，请勾选“所选凭证与登录迁移中心凭证相同”，系统将根据所选的区域，自动查询账号在该区域下的项目。区域：选择需要校验的数据所在区域/项目。项目：选择需要校验的数据所在项目。集群ID：输入需要校验的数据所在集群ID。如果所选凭证与登录迁移中心 MgC的账号凭证不同，请手动输入如下参数信息：区域ID：输入需要校验的数据所在区域ID。例如，区域为“华南-广州”，则输入“cn-south-1” 项目ID：输入与区域对应的项目ID。集群ID：输入需要校验的数据所在集群ID。说明：区域ID和项目ID可以在“我的凭证 > API凭证”查看。集群ID的获取方法请参考获取MRS集群ID。

表4 Hive Metastore连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Hive-Metastore-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
启用安全连接	选择是否启用安全连接。 MetaStore在非安全集群下，可以不启用安全连接。 MetaStore在安全集群下，需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。
Hive版本	选择源端Hive的实际版本。注意：如果源端Hive为2.1.1版本，此处需要选择1.x版本。
MetaStore节点IP	填写连接MetaStore的IP地址。
MetaStore Thrift服务端口	填写连接MetaStore的端口，默认为9083。
启用元数据仓连接	在增量数据校验中，如果通过Metastore查询，当分区数量超过30,000时，可能会因为将所有分区信息加载到内存中而导致内存溢出（OOM）。因此，使用MySQL作为元数据仓可以有效地解决这一问题。不启用：系统通过MetaStore查询Hive表的分区信息。启用：配置MySQL作为元数据仓，系统将通过MySQL查询Hive表的分区信息。启用后，需要配置如下参数：元仓类型：目前仅支持MySQL作为元数据仓。 MySQL凭证：选择访问MySQL数据库的认证信息。认证信息需要添加到MgC Agent然后同步到MgC，方法请参考添加资源凭证。 MySQL节点IP：输入MySQL数据库服务器的IP地址。 MySQL服务端口：输入MySQL数据库服务的端口号。数据库名：输入存储Hive表元数据的数据库名称。说明：请确保填写的MySQL凭证、节点IP、服务端口和数据库名与Hive实际使用的MySQL数据库相匹配，否则会导致数据校验失败。

表5 Delta Lake（有元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Delta-Lake-有元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表6 Delta Lake（无元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Delta-Lake-无元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。
采集资源使用信息	可选参数。开启后，通过该连接创建的统计任务将收集大数据服务的资源使用信息，这些信息将用于MgC上的报告生成，以便于进行性能优化。须知：使用该功能，需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限（ReadOnly）。如果所选凭证与登录迁移中心 MgC的账号凭证相同，请勾选“所选凭证与登录迁移中心凭证相同”，系统将根据所选的区域，自动查询账号在该区域下的项目。区域：选择需要校验的数据所在区域/项目。项目：选择需要校验的数据所在项目。集群ID：输入需要校验的数据所在集群ID。如果所选凭证与登录迁移中心 MgC的账号凭证不同，请手动输入如下参数信息：区域ID：输入需要校验的数据所在区域ID。例如，区域为“华南-广州”，则输入“cn-south-1” 项目ID：输入与区域对应的项目ID。集群ID：输入需要校验的数据所在集群ID。说明：区域ID和项目ID可以在“我的凭证 > API凭证”查看。集群ID的获取方法请参考获取MRS集群ID。

表7 Hudi（有元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Hudi-有元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表8 Hudi（无元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Hudi-无元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移中心Agent	选择在源端环境中安装的MgC Agent（原Edge）。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。
采集资源使用信息	可选参数。开启后，通过该连接创建的统计任务将收集大数据服务的资源使用信息，这些信息将用于MgC上的报告生成，以便于进行性能优化。须知：使用该功能，需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限（ReadOnly）。如果所选凭证与登录迁移中心 MgC的账号凭证相同，请勾选“所选凭证与登录迁移中心凭证相同”，系统将根据所选的区域，自动查询账号在该区域下的项目。区域：选择需要校验的数据所在区域/项目。项目：选择需要校验的数据所在项目。集群ID：输入需要校验的数据所在集群ID。如果所选凭证与登录迁移中心 MgC的账号凭证不同，请手动输入如下参数信息：区域ID：输入需要校验的数据所在区域ID。例如，区域为“华南-广州”，则输入“cn-south-1” 项目ID：输入与区域对应的项目ID。集群ID：输入需要校验的数据所在集群ID。说明：区域ID和项目ID可以在“我的凭证 > API凭证”查看。集群ID的获取方法请参考获取MRS集群ID。

参数配置完成后，单击“测试连接”，系统会校验配置信息并与组件建立连接，测试通过代表与组件连接成功。
测试连接通过后，单击“确认”按钮，创建大数据组件连接完成。
在连接管理页面，可以查看创建的连接列表以及基本信息。单击操作列的“修改连接”，可以修改连接参数配置。

父主题：创建源端连接

上一篇：创建源端云服务连接

下一篇：采集元数据

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问