接入MRS Hive数据源
概述
ROMA Connect支持把MRS Hive作为一个数据源,并用于数据集成任务。在使用MRS Hive数据源前,您需要先接入数据源。
- 若两个数据集成任务分别使用了不同版本的MRS数据源(包含MRS Hive、MRS HDFS和MRS HBase),且该MRS数据源均开启了Kerberos认证,则这两个数据集成任务不能同时运行,否则会导致集成任务运行失败。
- 数据集成中仅支持百万以内数据量。
前提条件
操作步骤
- 登录ROMA Connect控制台,在“实例”页面单击实例上的“查看控制台”,进入实例控制台。
- 在左侧的导航栏选择“数据源管理”,单击页面右上角的“接入数据源”。
- 在接入数据源页面的“默认数据源”页签下,选择“MRS Hive”类型的数据源,然后单击“下一步”。
- 在页面中配置数据源的连接信息。
表1 数据源连接信息 参数
配置说明
数据源名称
填写数据源的名称,根据规划自定义。建议您按照一定的命名规则填写数据源名称,方便您快速识别和查找。
编码格式
默认“utf-8”格式。
集成应用
选择数据源所归属的集成应用。
描述
填写数据源的描述信息。
HDFS URL
填写要接入的MRS Hive文件系统名。
- 若使用根目录,可填写“hdfs:///”,需要用户具有管理员权限。
- 若使用文件默认目录,可填写“hdfs:///hacluster”,需要用户具有管理员权限。
- 若使用用户规划的目录,可填写具体目录。
- 若使用用户数据库目录,如“/user/hive/testdb”,需要用户具有对应目录的权限。
机机交互用户名
填写连接MRS Hive的机机类型用户名。
上传配置文件
单击“上传文件”,上传MRS Hive配置文件。配置文件获取请参考获取MRS Hive配置文件。
获取MRS Hive配置文件
- 获取“krb5.conf”和“user.keytab”文件。
参考下载用户认证文件,在MRS Manager下载用户认证文件,解压后得到“krb5.conf”和 “user.keytab”文件。
- 获取“hiveclient.properties”、“core-site.xml”,“hdfs-site.xml”,“hosts”文件。
参考更新客户端配置文件,在MRS控制台下载客户端配置文件,解压后:
- 从“xxx_Services_ClientConfig_ConfigFiles”路径中得到“hosts”文件。
- 从“xxx_Services_ClientConfig_ConfigFiles > Hive > config”路径中得到“hiveclient.properties”文件。
- 从“xxx_Services_ClientConfig_ConfigFiles > HDFS > config”路径中得到“core-site.xml”、“hdfs-site.xml”文件
检查“hdfs-site.xml”文件中的“dfs.client.failover.proxy.provider.hacluster”参数的值是否为“org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider”如果不是,则修改为“org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider”。
- 创建“Version”文件。
- 生成MRS Hive配置文件。
将上述获取到的文件放到一个新的目录下,并打包成zip文件,所有文件位于zip文件的根目录下。
- 文件名只能由英文字母或数字组成,长度不超过255个字符。
- 文件大小不超过2MB。
- 完成数据源接入配置后,单击“开始检测”,检测ROMA Connect与数据源之间是否能够连通。
- 若测试结果为“数据源连接成功!”,则继续下一步。
- 若测试结果为“数据源连接失败!”,则检查数据源状态和数据源连接参数配置,然后单击“重新检测”,直到连接成功为止。
- 单击“创建”,完成数据源的接入。