新建DataArts Studio与MRS Hive数据湖的连接
本章节以新建MRS Hive连接为例,介绍如何建立DataArts Studio与数据湖底座之间的数据连接。
前提条件
- 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。
- 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。
- 在创建MRS HBase、MRS Hive等MRS类型的数据连接前,需确保您已购买MRS集群,集群的“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”,并且集群中包含所需要的组件。
- 在创建数据连接前,请确保待连接的数据湖与DataArts Studio实例之间网络互通。
- 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。
- 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件:
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
- 此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
- 如果使用企业模式,您还需要注意以下事项:
由于企业模式下需要区分开发环境和生产环境,因此您需要分别准备对应生产环境和开发环境的两套数据湖服务,用于隔离开发和生产环境:
- 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),如果使用两套集群,DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。创建数据连接的详细操作请参见创建DataArts Studio数据连接。
- 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。
- 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。
- 离线处理集成作业不支持在企业模式下运行。
例如,当您的数据湖服务为MRS集群时,需要准备两套MRS集群,且版本、规格、组件、区域、VPC、子网等保持一致。如果某个MRS集群修改了某些配置,也需要同步到另一套MRS集群上。
创建数据连接
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
- 在管理中心页面,单击“数据连接”,进入数据连接页面并单击“创建数据连接”。
图1 创建数据连接
- 单击“创建数据连接”,在弹出的页面中,选择“数据连接类型”为“MapReduce服务(MRS Hive)”,并参见表1配置相关参数。
图2 MRS Hive连接配置参数
表1 MRS Hive数据连接 参数
是否必选
说明
数据连接类型
是
MRS Hive连接固定选择为MapReduce服务(MRS Hive)。
数据连接名称
是
数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。
标签
否
标识数据连接的属性。设置标签后,便于统一管理。说明:标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。
适用组件
是
选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。
说明:- 当开启数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。
- 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。
基础与网络连通配置
连接方式
是
选择所需的连接方式,推荐使用“通过代理连接”。- 通过代理连接:通过Agent(即CDM集群)进行代理,以MRS集群的用户名和密码访问MRS集群。代理连接方式支持MRS所有版本的集群。
- MRS API连接:以MRS API的方式访问MRS集群。MRS API连接仅支持2.X及更高版本的MRS集群。
- MRS API连接仅支持在数据开发组件使用,其他组件例如数据架构、数据质量、数据目录等无法使用此连接。
- 在数据开发组件不支持通过可视化方式查看与管理该连接下的数据库、数据表和字段。特别的,仅当连接MRS 3.2.1以及之后版本的MRS集群时,支持通过可视化方式查看数据库、数据表和字段,但仍不支持可视化方式管理。
- 在数据开发组件的SQL编辑器运行SQL时,只能以日志形式显示执行结果。
说明:为保证数据架构、数据质量、数据目录、数据服务等组件能够使用此MRS连接,此处连接方式推荐配置为“通过代理连接”。
手动
是
通过代理连接时,是必选项。
选择连接模式。如无访问其他项目或企业项目下MRS集群的需求,使用集群名模式即可。- 使用集群名模式时,通过选择已有集群名称进行连接配置。仅可选择本项目内且企业项目相同的MRS集群进行连接。
- 使用连接串模式时,通过手动输入Manager IP,并打通本连接Agent(即CDM集群)和MRS集群之间的网络,则可以访问其他项目或企业项目的MRS集群。
Manager IP
是
使用连接串模式时,是必选项。
此参数填写为MRS Manager的浮动IP地址。仅支持连接MRS云服务,自建Hadoop集群必须先纳管到MRS云服务才能连接。说明:当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。
注意,通过输入框后的“选择”按钮仅能获取本项目内且企业项目相同的MRS集群,如果需要访问其他项目或企业项目的MRS集群,则需要获取MRS Manager的浮动IP地址并手动输入,并确保已打通本连接Agent(即CDM集群)和MRS租户面集群之间的网络。Manager的浮动IP地址可通过登录MRS集群主Master节点获取,执行ifconfig命令,回显中eth0:wsom的IP就是MRS Manager的浮动IP。登录MRS集群Master节点请参见登录集群节点章节,如果登录的是非主Master节点无法查询,请切换到另一个Master节点查询。
手动填写IP时请根据场景和顺序填写,多个IP之间使用","分隔。例如: 127.0.0.1或127.0.0.1,127.0.0.2,127.0.0.3。- 填写单个IP,IP应为MRS集群管理面的浮动IP。
- 填写3个IP时,应填写MRS集群业务面的主节点IP、备节点IP和MRS集群管理面的浮动IP。
MRS集群名
是
通过MRS API连接或使用集群名模式时,是必选项。
选择所属的MRS集群。仅支持连接MRS云服务,自建Hadoop集群必须在纳管到MRS云服务后才可以选择。系统会显示所有项目ID和企业项目相同的MRS集群。说明:当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。
如果选择集群后连接失败,请检查MRS集群与作为Agent的CDM实例是否网络互通。网络互通需满足如下条件:- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
- 此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。
说明:当同一Agent连接多个MRS集群时,如果其中一个MRS集群被删除或状态异常,会影响另外一个正常的MRS集群数据连接。因此建议一个Agent对应一个MRS集群数据连接。
KMS密钥
否
通过代理连接时,是必选项。
通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。说明:第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。
绑定Agent
是
通过代理连接时,是必选项。
MRS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建MRS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先进行创建。
CDM集群作为网络代理,必须和MRS集群网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和MRS集群处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。
数据源认证及其他功能配置
认证类型
是
使用连接串模式时,是必选项。
访问MRS的认证类型:- SIMPLE:非安全模式选择Simple鉴权。
- KERBEROS:安全模式选择Kerberos鉴权。
用户名
是
MRS集群的人机用户,通过代理连接时是必选项。如果使用新建的MRS用户进行连接,您需要先登录Manager页面,并更新初始密码。
如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考创建MRS安全集群的kerberos认证用户创建一个新的密码永不过期MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。说明:- MRS 3.1.0及之后版本集群,所创建的用户至少需具备Manager_viewer的角色权限才能在管理中心创建连接;如果需要对应组件的进行库、表、数据的操作,还需要添加对应组件的用户组权限。
- MRS 3.1.0版本之前的集群,所创建的用户需要具备Manager_administrator或System_administrator权限,才能在管理中心创建连接。
- 仅具备Manager_tenant或Manager_auditor权限,无法创建连接。
- 建议用户名的密码策略设置为永不过期,避免由于密码过期导致连接失败,引起业务受损。
密码
是
MRS集群的访问密码,通过代理连接的时候,是必选项。
开启ldap
否
当“连接方式”参数选择为“通过代理连接”时,显示该配置项。
当MRS Hive对接外部LDAP开启了LDAP认证时,连接Hive时需要使用LDAP账号与密码进行认证,此时必须开启此参数,否则会连接失败。
ldap用户名
是
当“开启ldap”参数选择为“是”时,此参数是必选项。
填写为MRS Hive开启LDAP认证时配置的用户名。
ldap密码
是
当“开启ldap”参数选择为“是”时,此参数是必选项。
填写为MRS Hive开启LDAP认证时配置的密码。
OBS支持
否
适用组件勾选数据集成后,呈现此参数。
需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。
使用委托
否
适用组件勾选数据集成后,呈现此参数。
开启委托功能,即可以在无需持有永久AKSK的情况下创建数据连接,根据DLF配置的调度身份执行CDM作业。
公共委托
否
适用组件勾选数据集成且“使用委托”选择“是”时,呈现此参数。
仅涉及用于测试该连接委托功能是否正常,作业运行将根据DLF配置的调度身份执行CDM作业。
访问标识(AK)
-
适用组件勾选数据集成且“OBS支持”选择“是”时,呈现此参数。
AK和SK分别为登录OBS服务器的访问标识与密钥。
您需要先创建当前账号的访问密钥,并获得对应的AK和SK。
您可以通过如下方式获取访问密钥。- 登录控制台,在用户名下拉列表中选择“我的凭证”。
- 进入“我的凭证”页面,选择 ,如图3所示。
- 单击“确定”,根据浏览器提示,保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件,即可查看访问密钥(Access Key Id和Secret Access Key)。
说明:
- 每个用户仅允许新增两个访问密钥。
- 为保证访问密钥的安全,访问密钥仅在初次生成时自动下载,后续不可再次通过管理控制台界面获取。请在生成后妥善保管。
密钥(SK)
-
数据集成配置
Hive版本
HIVE_3_X
适用组件勾选数据集成后,呈现此参数。
Hive的版本。根据服务端Hive版本设置。
说明:HIVE_3_X支持Hive服务端版本为3.x的连接,HIVE_2_X支持Hive服务端版本为2.x的连接。使用不匹配的连接版本,测试连接有可能正常,也可能会出现查询库表为空,或者作业失败等不正常场景。
运行模式
EMBEDDED
“HIVE_3_X”版本支持该参数。支持以下模式:- EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
- STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。
说明:
STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。
- 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。
- 测试通过后,单击“确定”,创建数据连接。