更新时间:2024-12-05 GMT+08:00
分享

创建源端组件连接

对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。

目前支持创建源端连接的大数据组件包括:

  • Doris
  • HBase
  • ClickHouse
  • Hive Metastore
  • Delta Lake(有元数据)
  • Delta Lake(无元数据)
  • Hudi(有元数据)
  • Hudi(无元数据)

操作步骤

  1. 登录迁移中心管理控制台。
  2. 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。在页面左上角的当前项目下拉列表中选择迁移项目
  3. 功能入口区域,单击“连接管理”,进入连接管理页面。
  4. 单击页面右上角的“新增连接”,右侧弹出新增连接窗口。
  5. 根据实际情况选择大数据组件,单击“下一步”,进入详细配置页面。
  6. 根据对应的参数配置说明,配置执行机参数。

    表1 Doris连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“Doris-4位随机数(字母和数字)”,也可以自定义名称。

    Doris凭证

    选择在Edge添加的源端Doris凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-Doris”。

    数据库地址

    填写连接到源端Doris集群部署的服务器IP地址。

    数据库端口

    填写连接到源端Doris集群部署的服务器的端口。默认为3306。

    数据库名

    填写源端Doris数据库名称。

    表2 HBase连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“HBase-4位随机数(字母和数字)”,也可以自定义名称。

    HBase凭证

    选择在Edge添加的源端HBase凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-HBase”。

    安全集群

    选择是否部署在安全集群下。

    Zookeeper节点IP

    填写连接到源端Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。

    Zookeepeer连接端口

    填写连接到源端Zookeepeer的端口。

    HBase 版本

    选择源端HBase的版本。

    表3 ClickHouse连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。

    ClickHouse凭证(可选)

    选择在Edge添加的源端ClickHouse凭证。凭证的添加方法请参考添加资源凭证中的大数据-ClickHouse。

    安全集群

    选择是否部署在安全集群下。

    ClickHouse Server IP

    填写连接到源端ClickHouse服务器的IP地址。通常是运行ClickHouse的主机IP地址。

    HTTP端口

    非安全集群下,与源端ClickHouse 服务器通信的 HTTP 端口。默认为8123。

    HTTP SSL/TLS端口

    安全集群下,与源端ClickHouse 服务器通信的HTTPS 端口。

    表4 Hive Metastore连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“Hive-Metastore-4位随机数(字母和数字)”,也可以自定义名称。

    启用安全连接

    选择是否启用安全连接。

    • MetaStore在非安全集群下,可以不启用安全连接。
    • MetaStore在安全集群下,需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。

    Hive版本

    选择源端Hive的实际版本。

    注意:

    如果源端Hive为2.1.1版本,此处需要选择1.x版本。

    MetaStore节点IP

    填写连接MetaStore的IP地址。

    MetaStore Thrift服务端口

    填写连接MetaStore的端口,默认为9083。

    表5 Delta Lake(有元数据)连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“Delta-Lake-有元数据-4位随机数(字母和数字)”,也可以自定义名称。

    执行机凭证

    选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。

    执行机IP

    填写连接执行机的IP地址。

    执行机连接端口

    填写连接执行机的端口。

    Spark客户端目录

    填写Spark客户端的安装目录路径。

    环境变量地址

    填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。

    SQL文件地址

    填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。

    须知:

    迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。

    表6 Delta Lake(无元数据)连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“Delta-Lake-无元数据-4位随机数(字母和数字)”,也可以自定义名称。

    执行机凭证

    选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。

    执行机IP

    填写连接执行机的IP地址。

    执行机连接端口

    填写连接执行机的端口。

    Spark客户端目录

    填写Spark客户端的安装目录路径。

    环境变量地址

    填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。

    SQL文件地址

    填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。

    须知:

    迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。

    表7 Hudi(有元数据)连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“Hudi-有元数据-4位随机数(字母和数字)”,也可以自定义名称。

    执行机凭证

    选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。

    执行机IP

    填写连接执行机的IP地址。

    执行机连接端口

    填写连接执行机的端口。

    Spark客户端目录

    填写Spark客户端的安装目录路径。

    环境变量地址

    填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。

    SQL文件地址

    填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。

    须知:

    迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。

    表8 Hudi(无元数据)连接参数配置说明

    参数

    配置说明

    所属源

    选择源端。

    连接名称

    默认创建名称为“Hudi-无元数据-4位随机数(字母和数字)”,也可以自定义名称。

    执行机凭证

    选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。

    执行机IP

    填写连接执行机的IP地址。

    执行机连接端口

    填写连接执行机的端口。

    Spark客户端目录

    填写Spark客户端的安装目录路径。

    环境变量地址

    填写环境变量文件(配置文件)的绝对路径,例如:/opt/bigdata/client/bigdata_env。

    SQL文件地址

    填写用于存放执行作业时生成的SQL文件的文件夹地址。您需要拥有该文件夹的读写权限。

    须知:

    迁移完成后,您需要手动清理该路径下生成的文件夹,以释放存储空间。

  7. 参数配置完成后,单击“测试连接”,系统会校验配置信息并与组件建立连接,测试通过代表与组件连接成功。
  8. 测试连接通过后,单击“确认”按钮,创建大数据组件连接完成。
  9. 连接管理页面,可以查看创建的连接列表以及基本信息。单击操作列的“修改连接”,可以修改连接参数配置。

相关文档