创建元数据连接

创建元数据来源类型的连接，获取源端大数据库表清单。

目前支持的连接类型，参见表1。

表1 支持的元数据连接类型
类别	连接类型
大数据组件	Hive Metastore Doris HBase ClickHouse Delta Lake（有元数据） Delta Lake（无元数据） Hudi（有元数据） Hudi（无元数据）
大数据云服务	MaxCompute 阿里云云数据库ClickHouse

在创建Hive Metastore连接前，需要先获取连接Hive Metastore的IP地址和端口号。
在创建MaxCompute连接前，需要先获取MaxCompute服务所在地域的Endpoint信息。
在创建Doris连接前，需要先获取Doris集群部署的服务器IP地址和端口。
在创建HBase连接前，需要先获取HBase集群中至少一个ZooKeeper节点的IP地址和连接端口。

前提条件

已在源端元数据来源的环境中部署迁移工具Edge。

操作步骤

登录迁移中心管理控制台。
在左侧导航栏选择“调研>大数据血缘”，进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。
在元数据采集区域，单击“创建连接”，右侧弹出创建连接窗口。
选择连接类型，单击“下一步”，进入详细配置页面。

根据所选的连接类型，查看对应的参数配置说明，配置连接参数。

Hive Metastore连接参数配置说明
Doris连接参数配置说明
HBase连接参数配置说明
ClickHouse组件参数配置说明
Delta Lake（有元数据）连接参数配置说明
Delta Lake（无元数据）连接参数配置说明
Hudi（有元数据）连接参数配置说明
Hudi（无元数据）连接参数配置说明
MaxCompute连接参数配置说明
阿里云云数据库ClickHouse连接参数配置说明

表2 Hive Metastore连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“Hive-Metastore-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
启用安全连接	选择是否启用安全连接。 MetaStore在非安全集群下，可以不启用安全连接。 MetaStore在安全集群下，需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。
Hive版本	选择源端Hive的实际版本。注意：如果源端Hive为2.1.1版本，此处需要选择1.x版本。
MetaStore节点IP	填写连接MetaStore的IP地址。
MetaStore Thrift服务端口	填写连接MetaStore的端口，默认为9083。

表3 Doris连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“Doris-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
Doris凭证	选择在Edge添加的Doris凭证。凭证的添加方式请参考添加资源凭证，类型选择“大数据-Doris”。
数据库地址	填写连接到Doris集群部署的服务器IP地址。
数据库端口	填写连接到Doris集群部署的服务器的端口。默认为3306。
数据库名	填写Doris数据库名称。

表4 HBase连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“HBase-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。注意：需要在安装Edge的主机上配置/etc/hosts后，HBase元数据连接才能连接成功。host文件的获取方法请参见准备开发和运行环境。
HBase凭证	选择在Edge添加的HBase凭证。凭证的添加方式请参考添加资源凭证，类型选择“大数据-HBase”。
安全集群	选择是否部署在安全集群下。
Zookeeper节点IP	填写连接到Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。
Zookeepeer连接端口	填写连接到Zookeepeer的端口。
HBase 版本	选择HBase的版本。

表5 ClickHouse连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“ClickHouse-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
ClickHouse凭证（可选）	选择在Edge添加的ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。
安全集群	选择是否部署在安全集群下。
ClickHouse Server IP	填写连接到ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。
HTTP端口	非安全集群下，与ClickHouse 服务器通信的 HTTP 端口。默认为8123。
HTTP SSL/TLS端口	安全集群下，与ClickHouse 服务器通信的HTTPS 端口。

表6 Delta Lake（有元数据）连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“Delta-Lake-有元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表7 Delta Lake（无元数据）连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“Delta-Lake-无元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表8 Hudi（有元数据）连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“Hudi-有元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

表9 Hudi（无元数据）连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“Hudi-无元数据-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
执行机凭证	选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP	填写连接执行机的IP地址。
执行机连接端口	填写连接执行机的端口。
Spark客户端目录	填写Spark客户端的安装目录路径。
环境变量地址	填写环境变量文件（配置文件）的绝对路径，例如：/opt/bigdata/client/bigdata_env。
SQL文件地址	填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。须知：迁移完成后，您需要手动清理该路径下生成的文件夹，以释放存储空间。

**表10** MaxCompute连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“MaxCompute-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
阿里云凭证	选择源端阿里云账号的凭证。凭证的添加方式请参考添加资源凭证，类型选择“大数据-MaxCompute”。
项目名称	输入需要采集的MaxCompute项目名称。项目名称可在MaxCompute侧控制台获取。
Endpoint	输入MaxCompute服务所在地域的Endpoint信息。各地域Endpoint信息请参考Endpoint对照表。

**表11** 阿里云云数据库ClickHouse连接参数配置说明
参数	配置说明
所属源	仅需在源端创建元数据连接。
连接名称	默认创建名称为“阿里云云数据库ClickHouse-4位随机数（字母和数字）”，也可以自定义名称。
迁移工具	选择在源端环境中部署的迁移工具Edge。
ClickHouse凭证	选择在Edge添加的源端阿里云云数据库ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。
数据库链接	填写连接源端ClickHouse集群的外网地址。可以在集群信息页面，查看外网地址。

配置完成后，单击“测试连接”按钮，系统会校验配置信息并与源端建立连接，测试通过代表连接成功。
测试连接通过后，单击“确认”按钮，创建元数据连接完成。
单击“元数据连接”，进入元数据采集页面。在连接管理页签，可以查看已创建的元数据连接列表以及基本信息。单击操作列的“修改连接”，可以修改连接参数配置。

父主题： 采集元数据

上一篇：采集元数据

下一篇：创建并运行元数据同步任务

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消