创建MRS Hive连接器
MRS Hive连接适用于MapReduce服务,本教程为您介绍如何创建MRS Hive连接器。
前提条件
- 已创建CDM集群。
- 已获取MRS集群的Manager IP、管理员账号和密码,且该账号拥有数据导入、导出的操作权限。
- MRS集群和CDM集群之间网络互通,网络互通需满足如下条件:
新建MRS hive连接
- 在CDM集群管理界面,单击集群后的“作业管理”,选择 ,进入连接器类型的选择界面,如图1所示。
- 连接器类型选择“MRS Hive”后单击“下一步”,配置MRS Hive连接的参数,如图2所示。
- 单击“显示高级属性”可查看更多可选参数,这里保持默认,必填参数如下表所示。
表1 MRS Hive连接参数 参数名
说明
取值样例
名称
连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。
hivelink
Manager IP
MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。说明:当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。
127.0.0.1
认证类型
访问MRS的认证类型:- SIMPLE:非安全模式选择Simple鉴权。
- KERBEROS:安全模式选择Kerberos鉴权。
SIMPLE
Hive版本
Hive的版本。根据服务端Hive版本设置。
HIVE_3_X
用户名
选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。
如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。说明:- 如果CDM集群为2.9.0版本及之后版本,且MRS集群为3.1.0及之后版本,则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接;如果需要对MRS组件的库、表、列进行操作,还需要参考MRS文档添加对应组件的库、表、列操作权限。
- 如果CDM集群为2.9.0之前的版本,或MRS集群为3.1.0之前的版本,则所创建的用户需要具备Manager_administrator或System_administrator权限,才能在CDM创建连接。
- 仅具备Manager_tenant或Manager_auditor权限,无法创建连接。
cdm
密码
访问MRS Manager的用户密码。
-
开启LDAP认证
通过代理连接的时候,此项可配置。
当MRS Hive对接外部LDAP开启了LDAP认证时,连接Hive时需要使用LDAP账号与密码进行认证,此时必须开启此参数,否则会连接失败。
否
LDAP用户名
当“开启LDAP认证”参数选择为“是”时,此参数是必选项。
填写为MRS Hive开启LDAP认证时配置的用户名。
-
LDAP密码
当“开启LDAP认证”参数选择为“是”时,此参数是必选项。
填写为MRS Hive开启LDAP认证时配置的密码。
-
OBS支持
需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。
否
访问标识(AK)
当“OBS支持”参数选择为“是”时,此参数是必选项。请注意,此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限,否则会无法访问OBS并报“403 AccessDenied”错误。
您需要先创建当前账号的访问密钥,并获得对应的AK和SK。
- 登录控制台,在用户名下拉列表中选择“我的凭证”。
- 进入“我的凭证”页面,选择 ,如图3所示。
- 单击“确定”,根据浏览器提示,保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件,即可查看访问密钥(Access Key Id和Secret Access Key)。
说明:
- 每个用户仅允许新增两个访问密钥。
- 为保证访问密钥的安全,访问密钥仅在初次生成时自动下载,后续不可再次通过管理控制台界面获取。请在生成后妥善保管。
-
密钥(SK)
-
运行模式
“HIVE_3_X”版本支持该参数。支持以下模式:- EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
- STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。
说明:
STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。
EMBEDDED
检查Hive JDBC连通性
是否需要测试Hive JDBC连通。
否
是否使用集群配置
您可以通过使用集群配置,简化Hadoop连接参数配置。
否
集群配置名
仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。
集群配置的创建方法请参见管理集群配置。
hive_01
单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。
- 单击“保存”回到连接管理界面,完成MRS Hive连接器的配置。