文档首页/ 迁移中心 MgC/ 用户指南/ 旧版/ 大数据校验/ 创建源端连接/ 创建源端组件连接

更新时间：2025-11-12 GMT+08:00

查看PDF

创建源端组件连接

对大数据组件数据进行一致性校验时，需要与大数据组件建立连接，用于数据查询。

目前支持创建源端连接的大数据组件包括：

Doris
HBase
ClickHouse
Hive Metastore
Delta Lake（有元数据）
Delta Lake（无元数据）
Hudi（有元数据）
Hudi（无元数据）

操作步骤

登录迁移中心管理控制台。
在左侧导航栏选择“实施>大数据校验”，进入大数据校验页面。在页面左上角的当前项目下拉列表中选择迁移项目。
在功能入口区域，单击“连接管理”，进入连接管理页面。
单击页面右上角的“新增连接”，右侧弹出新增连接窗口。
根据实际情况选择大数据组件，单击“下一步”，进入详细配置页面。

根据对应的参数配置说明，配置执行机参数。

Doris连接参数配置说明
HBase连接参数配置说明
ClickHouse组件参数配置说明
Hive Metastore连接参数配置说明
Delta Lake（有元数据）连接参数配置说明
Delta Lake（无元数据）连接参数配置说明
Hudi（有元数据）连接参数配置说明
Hudi（无元数据）连接参数配置说明

表1 Doris连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Doris-4位随机数（字母和数字）”，也可以自定义名称。
Doris凭证	选择在Edge添加的源端Doris凭证。凭证的添加方式请参考添加资源凭证，类型选择“大数据-Doris”。
数据库地址	填写连接到源端Doris集群部署的服务器IP地址。
数据库端口	填写连接到源端Doris集群部署的服务器的端口。默认为3306。
数据库名	填写源端Doris数据库名称。

表2 HBase连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“HBase-4位随机数（字母和数字）”，也可以自定义名称。
HBase凭证	选择在Edge添加的源端HBase凭证。凭证的添加方式请参考添加资源凭证，类型选择“大数据-HBase”。
安全集群	选择是否部署在安全集群下。
Zookeeper节点IP	填写连接到源端Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。
Zookeeper连接端口	填写连接到源端Zookeeper的端口。
HBase 版本	选择源端HBase的版本。

表3 ClickHouse连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“ClickHouse-4位随机数（字母和数字）”，也可以自定义名称。
ClickHouse凭证（可选）	选择在Edge添加的源端ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。
安全集群	选择是否部署在安全集群下。
ClickHouse Server IP	填写连接到源端ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。
HTTP端口	非安全集群下，与源端ClickHouse 服务器通信的 HTTP 端口。默认为8123。
HTTP SSL/TLS端口	安全集群下，与源端ClickHouse 服务器通信的HTTPS 端口。

表4 Hive Metastore连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Hive-Metastore-4位随机数（字母和数字）”，也可以自定义名称。
启用安全连接	选择是否启用安全连接。 MetaStore在非安全集群下，可以不启用安全连接。 MetaStore在安全集群下，需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。
Hive版本	选择源端Hive的实际版本。注意：如果源端Hive为2.1.1版本，此处需要选择1.x版本。
MetaStore节点IP	填写连接MetaStore的IP地址。
MetaStore Thrift服务端口	填写连接MetaStore的端口，默认为9083。
启用元数据仓连接	在增量数据校验中，如果通过Metastore查询，当分区数量超过30,000时，可能会因为将所有分区信息加载到内存中而导致内存溢出（OOM）。因此，使用MySQL作为元数据仓可以有效地解决这一问题。不启用：系统通过MetaStore查询Hive表的分区信息。启用：配置MySQL作为元数据仓，系统将通过MySQL查询Hive表的分区信息。启用后，需要配置如下参数：元仓类型：目前仅支持MySQL作为元数据仓。 MySQL凭证：选择访问MySQL数据库的认证信息。认证信息需要添加到Edge然后同步到MgC，方法请参考添加资源凭证。 MySQL节点IP：输入MySQL数据库服务器的IP地址。 MySQL服务端口：输入MySQL数据库服务的端口号。数据库名：输入存储Hive表元数据的数据库名称。说明：请确保填写的MySQL凭证、节点IP、服务端口和数据库名与Hive实际使用的MySQL数据库相匹配，否则会导致数据校验失败。

表5 Delta Lake（有元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Delta-Lake-有元数据-4位随机数（字母和数字）”，也可以自定义名称。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表6 Delta Lake（无元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Delta-Lake-无元数据-4位随机数（字母和数字）”，也可以自定义名称。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表7 Hudi（有元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Hudi-有元数据-4位随机数（字母和数字）”，也可以自定义名称。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表8 Hudi（无元数据）连接参数配置说明
参数	配置说明
所属源	选择源端。
连接名称	默认创建名称为“Hudi-无元数据-4位随机数（字母和数字）”，也可以自定义名称。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

参数配置完成后，单击“测试连接”，系统会校验配置信息并与组件建立连接，测试通过代表与组件连接成功。
测试连接通过后，单击“确认”按钮，创建大数据组件连接完成。
在连接管理页面，可以查看创建的连接列表以及基本信息。单击操作列的“修改连接”，可以修改连接参数配置。

父主题：创建源端连接

上一篇：创建源端云服务连接

下一篇：创建表组并添加数据表

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消