创建元数据连接
创建元数据来源类型的连接,获取源端大数据库表清单。
目前支持的连接类型,参见表1。
类别 |
连接类型 |
---|---|
大数据组件 |
|
大数据云服务 |
|
- 在创建Hive Metastore连接前,需要先获取连接Hive Metastore的IP地址和端口号。
- 在创建MaxCompute连接前,需要先获取MaxCompute服务所在地域的Endpoint信息。
- 在创建Doris连接前,需要先获取Doris集群部署的服务器IP地址和端口。
- 在创建HBase连接前,需要先获取HBase集群中至少一个ZooKeeper节点的IP地址和连接端口。
前提条件
已在源端元数据来源的环境中部署迁移工具Edge。
操作步骤
- 登录迁移中心管理控制台。
- 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。
- 在元数据采集区域,单击“创建连接”,右侧弹出创建连接窗口。
- 选择连接类型,单击“下一步”,进入详细配置页面。
- 根据所选的连接类型,查看对应的参数配置说明,配置连接参数。
- Hive Metastore连接参数配置说明
- Doris连接参数配置说明
- HBase连接参数配置说明
- ClickHouse组件参数配置说明
- Delta Lake(有元数据)连接参数配置说明
- Delta Lake(无元数据)连接参数配置说明
- Hudi(有元数据)连接参数配置说明
- Hudi(无元数据)连接参数配置说明
- MaxCompute连接参数配置说明
- 阿里云云数据库ClickHouse连接参数配置说明
表2 Hive Metastore连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“Hive-Metastore-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
启用安全连接
选择是否启用安全连接。
- MetaStore在非安全集权下,可以不启用安全连接。
- MetaStore在安全集群下,需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。
Hive版本
选择源端Hive的实际版本。
注意:如果源端Hive为2.1.1版本,此处需要选择1.x版本。
MetaStore节点IP
填写连接MetaStore的IP地址。
MetaStore Thrift服务端口
填写连接MetaStore的端口,默认为9083。
表3 Doris连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“Doris-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
Doris凭证
选择在Edge添加的Doris凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-Doris”。
数据库地址
填写连接到Doris集群部署的服务器IP地址。
数据库端口
填写连接到Doris集群部署的服务器的端口。默认为3306。
数据库名
填写Doris数据库名称。
表4 HBase连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“HBase-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
注意:需要在安装Edge的主机上配置/etc/hosts后,HBase元数据连接才能连接成功。host文件的获取方法请参见准备开发和运行环境。
HBase凭证
选择在Edge添加的HBase凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-HBase”。
安全集群
选择是否部署在安全集群下。
Zookeeper节点IP
填写连接到Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。
Zookeepeer连接端口
填写连接到Zookeepeer的端口。
HBase 版本
选择HBase的版本。
表5 ClickHouse连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
ClickHouse凭证(可选)
选择在Edge添加的ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。
安全集群
选择是否部署在安全集群下。
ClickHouse Server IP
填写连接到ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。
HTTP端口
非安全集群下,与ClickHouse 服务器通信的 HTTP 端口。默认为8123。
HTTP SSL/TLS端口
安全集群下,与ClickHouse 服务器通信的HTTPS 端口。
表6 Delta Lake(有元数据)连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“Delta-Lake-有元数据-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
表7 Delta Lake(无元数据)连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“Delta-Lake-无元数据-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
表8 Hudi(有元数据)连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“Hudi-有元数据-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
表9 Hudi(无元数据)连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“Hudi-无元数据-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
执行机凭证
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。
执行机IP
填写连接执行机的IP地址。
执行机连接端口
填写连接执行机的端口。
Spark客户端目录
填写Spark客户端的安装目录路径。
环境变量地址
填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。
SQL文件地址
填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。
须知:迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。
表10 MaxCompute连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“MaxCompute-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
阿里云凭证
选择源端阿里云账号的凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-MaxCompute”。
项目名称
输入需要采集的MaxCompute项目名称。项目名称可在MaxCompute侧控制台获取。
Endpoint
输入MaxCompute服务所在地域的Endpoint信息。
各地域Endpoint信息请参考Endpoint对照表。
表11 阿里云云数据库ClickHouse连接参数配置说明 参数
配置说明
所属源
仅需在源端创建元数据连接。
连接名称
默认创建名称为“阿里云云数据库ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。
迁移工具
选择在源端环境中部署的迁移工具Edge。
ClickHouse凭证
选择在Edge添加的源端阿里云云数据库ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。
数据库链接
填写连接源端ClickHouse集群的外网地址。可以在集群信息页面,查看外网地址。
- 配置完成后,单击“测试连接”按钮,系统会校验配置信息并与源端建立连接,测试通过代表连接成功。
- 测试连接通过后,单击“确认”按钮,创建元数据连接完成。
- 单击“元数据连接”,进入元数据采集页面。在连接管理页签,可以查看已创建的元数据连接列表以及基本信息。单击操作列的“修改连接”,可以修改连接参数配置。