更新时间:2024-05-07 GMT+08:00
分享

接入MRS Hive数据源

概述

ROMA Connect支持把MRS Hive作为一个数据源,并用于数据集成任务。在使用MRS Hive数据源前,您需要先接入数据源。

  • 若两个数据集成任务分别使用了不同版本的MRS数据源(包含MRS Hive、MRS HDFS和MRS HBase),且该MRS数据源均开启了Kerberos认证,则这两个数据集成任务不能同时运行,否则会导致集成任务运行失败。
  • 数据集成中仅支持百万以内数据量。

前提条件

  • 每个接入的数据源都要归属到某个集成应用下,在接入数据源前您需要有可用的集成应用,否则请提前创建集成应用
  • MRS Hive数据源所在的MRS集群已开启Kerberos认证,并已为机机交互用户配置执行权限,具体请参考准备开发用户

操作步骤

  1. 登录ROMA Connect控制台,在“实例”页面单击实例上的“查看控制台”,进入实例控制台。
  2. 在左侧的导航栏选择“数据源管理”,单击页面右上角的“接入数据源”。
  3. 在接入数据源页面的“默认数据源”页签下,选择“MRS Hive”类型的数据源,然后单击“下一步”。
  4. 在页面中配置数据源的连接信息。
    表1 数据源连接信息

    参数

    配置说明

    数据源名称

    填写数据源的名称,根据规划自定义。建议您按照一定的命名规则填写数据源名称,方便您快速识别和查找。

    编码格式

    默认“utf-8”格式。

    集成应用

    选择数据源所归属的集成应用。

    描述

    填写数据源的描述信息。

    HDFS URL

    填写要接入的MRS Hive文件系统名。

    • 若使用根目录,可填写“hdfs:///”,需要用户具有管理员权限。
    • 若使用文件默认目录,可填写“hdfs:///hacluster”,需要用户具有管理员权限。
    • 若使用用户规划的目录,可填写具体目录。
    • 若使用用户数据库目录,如“/user/hive/testdb”,需要用户具有对应目录的权限。

    机机交互用户名

    填写连接MRS Hive的机机类型用户名。

    上传配置文件

    单击“上传文件”,上传MRS Hive配置文件。配置文件获取请参考获取MRS Hive配置文件。

    获取MRS Hive配置文件

    1. 获取“krb5.conf”和“user.keytab”文件。

      参考下载用户认证文件,在MRS Manager下载用户认证文件,解压后得到“krb5.conf”和 “user.keytab”文件。

    2. 获取“hiveclient.properties”、“core-site.xml”,“hdfs-site.xml”,“hosts”文件。

      参考更新客户端配置文件,在MRS控制台下载客户端配置文件,解压后:

      • 从“xxx_Services_ClientConfig_ConfigFiles”路径中得到“hosts”文件。
      • 从“xxx_Services_ClientConfig_ConfigFiles > Hive > config”路径中得到“hiveclient.properties”文件。
      • 从“xxx_Services_ClientConfig_ConfigFiles > HDFS > config”路径中得到“core-site.xml”、“hdfs-site.xml”文件

        检查“hdfs-site.xml”文件中的“dfs.client.failover.proxy.provider.hacluster”参数的值是否为“org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider”如果不是,则修改为“org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider”。

    3. 创建“Version”文件。

      手动创建名为“Version”的文本文件,文件不需要后缀格式,文件内容填写为version=MRS 3.1.0。

    4. 生成MRS Hive配置文件。

      将上述获取到的文件放到一个新的目录下,并打包成zip文件,所有文件位于zip文件的根目录下。

      • 文件名只能由英文字母或数字组成,长度不超过255个字符。
      • 文件大小不超过2MB。
  5. 完成数据源接入配置后,单击“开始检测”,检测ROMA Connect与数据源之间是否能够连通。
    • 若测试结果为“数据源连接成功!”,则继续下一步。
    • 若测试结果为“数据源连接失败!”,则检查数据源状态和数据源连接参数配置,然后单击“重新检测”,直到连接成功为止。
  6. 单击“创建”,完成数据源的接入。

相关文档