创建数据连接
通过配置数据源信息,可以建立数据连接。DataArts Studio基于管理中心的数据连接对数据湖底座进行数据开发、治理、服务和运营。
约束限制
- RDS数据连接方式依赖于OBS。如果没有与DataArts Studio同区域的OBS,则不支持RDS数据连接。
- 当所连接的数据湖发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。
前提条件
- 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。
- 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。
- 在创建MRS HBase、MRS Hive、MRS Kafka、MRS Spark、MRS Presto类型的数据连接前,需确保您已创建MRS集群,并且在创建数据链接时已创建选择所需要的组件。
- 在创建RDS类型的数据连接前,请确保您已创建RDS数据库实例。DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库引擎。
- 在创建数据连接前,请确保待连接的数据湖与DataArts Studio实例之间网络互通。
- 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。
- 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件:
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见《虚拟私有云(VPC)使用指南》中的“添加路由信息”章节,配置安全组规则请参见《虚拟私有云(VPC)使用指南》中的“安全组 > 添加安全组规则”章节。
- 此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
创建数据连接
- 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
图1 选择管理中心
- 在管理中心页面,单击“数据连接”,进入数据连接页面。
图2 创建数据连接
- 单击“创建数据连接”,在弹出的对话框中,选择“数据连接类型”,并参见表1配置相关参数。
图3 创建数据连接
- 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。
- 测试通过后,单击“确定”,完成数据连接的创建。
数据连接参数说明
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 |
否 |
标识数据连接的属性。设置标签后,便于统一管理。
说明:
标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
集群名 |
是 |
选择Hive所属的MRS集群。如果在下拉列表中无法显示MRS集群,请检查MRS集群与DataArts Studio实例是否网络互通。
需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件:
|
连接方式 |
是 |
|
用户名 |
否 |
MRS集群的用户名,通过代理连接的时候,是必选项。如果使用新建的MRS用户进行连接,您需要先登录Manager页面,并更新初始密码。
如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考创建MRS安全集群的kerberos认证用户创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
说明:
|
密码 |
否 |
MRS集群的访问密码,通过代理连接的时候,是必选项。 |
KMS密钥 |
否 |
KMS密钥名称。通过代理连接的时候,是必选项。 |
绑定Agent |
否 |
通过代理连接的时候,是必选项。 MRS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建MRS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和MRS集群网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和MRS集群处于相同的区域、可用区、VPC和子网,安全组规则需允许两者网络互通。 |
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 |
否 |
标识数据连接的属性。设置标签后,便于统一管理。
说明:
标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
集群名 |
是 |
选择HBase所属的MRS集群。如果在下拉列表中无法显示MRS集群,请检查MRS集群与DataArts Studio实例是否网络互通。
需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件:
|
用户名 |
是 |
MRS集群的用户名。
如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考创建MRS安全集群的kerberos认证用户创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
说明:
|
密码 |
是 |
MRS集群的访问密码。 |
KMS密钥 |
是 |
KMS密钥名称。 |
绑定Agent |
是 |
MRS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建MRS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和MRS集群网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和MRS集群处于相同的区域、可用区、VPC和子网,安全组规则需允许两者网络互通。 |
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 |
否 |
标识数据连接的属性。设置标签后,便于统一管理。
说明:
标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
集群名 |
是 |
选择Kafka所属的MRS集群。如果在下拉列表中无法显示MRS集群,请检查MRS集群与DataArts Studio实例是否网络互通。
需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件:
|
用户名 |
是 |
MRS集群的用户名。
如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考创建MRS安全集群的kerberos认证用户创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
说明:
|
密码 |
是 |
MRS集群的访问密码。 |
KMS密钥 |
是 |
KMS密钥名称。 |
绑定Agent |
是 |
MRS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建MRS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和MRS集群网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和MRS集群处于相同的区域、可用区、VPC和子网,安全组规则需允许两者网络互通。 |
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 |
否 |
标识数据连接的属性。设置标签后,便于统一管理。
说明:
标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
集群名 |
是 |
选择Spark所属的MRS集群名称。如果在下拉列表中无法显示MRS集群,请检查MRS集群与DataArts Studio实例是否网络互通。
需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件:
|
连接方式 |
是 |
|
用户名 |
否 |
MRS集群的用户名,通过代理连接的时候,是必选项。如果使用新建的MRS用户进行连接,您需要先登录Manager页面,并更新初始密码。
如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考创建MRS安全集群的kerberos认证用户创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
说明:
|
密码 |
否 |
MRS集群的访问密码,通过代理连接的时候,是必选项。 |
KMS密钥 |
否 |
KMS密钥名称。通过代理连接的时候,是必选项。 |
绑定Agent |
否 |
通过代理连接的时候,是必选项。 MRS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建MRS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和MRS集群网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和MRS集群处于相同的区域、可用区、VPC和子网,安全组规则需允许两者网络互通。 |
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 |
否 |
标识数据连接的属性。设置标签后,便于统一管理。
说明:
标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
IP |
是 |
RDS的访问地址。 如果为RDS数据源,可以通过RDS管理控制台获取访问地址:
在连接信息标签中可以获取到内网地址。 |
端口 |
是 |
RDS的访问端口。 如果为RDS数据源,可以通过RDS管理控制台获取访问端口:
在连接信息标签中可以获取到数据库端口。 |
驱动程序名称 |
是 |
驱动程序名称:
|
驱动文件路径 |
是 |
驱动文件在OBS上的路径。需要您自行到官网下载.jar格式驱动并上传至OBS中。
说明:
如果需要更新驱动文件,则需要先在数据集成页面重启CDM集群,然后通过编辑数据连接的方式重新选择新版本驱动,更新驱动才能生效。 |
用户名 |
是 |
数据库的用户名,创建集群的时候,输入的用户名。 |
密码 |
是 |
数据库的访问密码,创建集群的时候,输入的密码。 |
KMS密钥 |
是 |
KMS密钥名称。 通过KMS管理控制台获取密钥名称:
在密钥列表可以获取到密钥名称。 |
绑定Agent |
是 |
RDS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建RDS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和RDS网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和RDS处于相同的区域、可用区、VPC和子网,安全组规则需允许两者网络互通。 |
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 |
否 |
标识数据连接的属性。设置标签后,便于统一管理。
说明:
标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
手动 |
是 |
通过单击或来关闭或开启手动开关:
|
IP |
否 |
“手动”打开时需要填写该项,表示通过内部网络访问集群数据库的IP地址。内网访问IP地址在创建集群时自动生成。 |
端口 |
否 |
“手动”打开时需要填写该项,表示创建DWS集群时指定的数据库端口号。请确保您已在安全组规则中开放此端口,以便DataArts Studio实例可以通过该端口连接DWS集群数据库。 |
SSL连接 |
是 |
DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。开关打开,即只能通过SSL方式连接。开关关闭,即两种方式均可。默认关闭。 |
集群名 |
是 |
选择DWS集群。 |
用户名 |
是 |
数据库的用户名,创建DWS集群时指定的用户名。 |
密码 |
是 |
数据库的访问密码,创建DWS集群时指定的密码。 |
KMS密钥 |
是 |
KMS密钥名称。 |
连接方式 |
是 |
选择所需的连接方式,推荐使用“通过代理连接”。
|
绑定Agent |
否 |
通过代理连接的时候,是必选项。 DWS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建DWS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和DWS集群网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和DWS集群处于相同的区域、可用区、VPC和子网,安全组规则需允许两者网络互通。 |
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 |
否 |
标识数据连接的属性。设置标签后,便于统一管理。
说明:
标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
IP |
是 |
待连接的数据库IP地址,公网IP和内网IP地址均支持。 |
端口 |
是 |
待连接的数据库端口。 |
用户名 |
是 |
待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 |
密码 |
是 |
用户密码。 |
sid |
是 |
Oracle数据库的唯一标识符。 |
KMS密钥 |
是 |
KMS密钥名称。 通过KMS管理控制台获取密钥名称:
在密钥列表可以获取到密钥名称。 |
绑定Agent |
是 |
Oracle为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建Oracle的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和Oracle网络互通才可以成功创建MRS连接。 |
参数 |
是否必选 |
说明 |
---|---|---|
数据连接名称 |
是 |
主机连接的名称,只能包含字母,数字,中划线或者下划线。 |
主机地址 |
是 |
主机的地址。 请参见《弹性云服务器用户指南》的查看云服务器详细信息页获取。 |
绑定Agent |
是 |
需要选择CDM集群,CDM集群提供Agent。 |
端口 |
是 |
主机的SSH端口号。 |
用户名 |
是 |
主机的登录用户名。 |
登录方式 |
是 |
选择主机的登录方式:
|
密钥对 |
是 |
主机的登录方式为密钥对时,用户获取并上传其私钥文件至OBS,在此处选择对应的OBS路径。“登录方式”为“密钥对”时,显示该配置项。
说明:
此处上传的私钥文件需为PEM格式,并且上传的私钥文件和主机上配置的公钥是一个密钥对。 |
密钥对密码 |
否 |
如果密钥对未设置密码,则不需要填写该配置项。 |
密码 |
是 |
主机的登录方式为密码时,填写主机的登录密码。 |
主机连接描述 |
否 |
主机连接的描述信息。 |
创建MRS安全集群的kerberos认证用户
如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考以下步骤创建一个新的MRS用户:
针对MRS 3.x版本集群:
- 使用admin登录MRS服务的Manager页面。
- 在Manager页面选择“系统 > 权限 > 用户”,单击“添加用户”,添加一个专有用户作为kerberos认证用户,并且为这个用户添加用户组和分配角色权限,用户组选择superGroup,角色建议全选,然后根据页面提示完成用户的创建。
- MRS 3.1.0及之后版本集群,所创建的用户至少需具备Manager_viewer的角色权限才能在管理中心创建连接;如果需要对应组件的进行库、表、数据的操作,还需要添加对应组件的用户组权限。
- MRS 3.1.0版本之前的集群,所创建的用户需要具备Manager_administrator或System_administrator权限,才能在管理中心创建连接。
- 仅具备Manager_tenant或Manager_auditor权限,无法创建连接。
- 使用新建的用户登录Manager页面,并更新初始密码,否则会导致创建连接失败。
- 同步IAM用户。
- 登录MRS管理控制台。
- 选择“集群列表 > 现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
- 在“概览”页签的基本信息区域,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。
- 当IAM用户的用户组的所属策略从MRS ReadOnlyAccess向MRS CommonOperations、MRS FullAccess、MRS Administrator变化时,由于集群节点的SSSD(System Security Services Daemon)缓存刷新需要时间,因此同步完成后,请等待5分钟,等待新修改策略生效之后,再进行提交作业。否则,会出现提交作业失败的情况。
- 当IAM用户的用户组的所属策略从MRS CommonOperations、MRS FullAccess、MRS Administrator向MRS ReadOnlyAccess变化时,由于集群节点的SSSD缓存刷新需要时间,因此同步完成后,请等待5分钟,新修改策略才能生效。
针对MRS 2.x及之前版本集群 :
- 使用admin登录MRS Manager页面。
- 在MRS Manager页面的“系统设置”中,单击“用户管理”,在用户管理页面,添加用户,添加一个专有用户作为kerberos认证用户,并且为这个用户添加用户组和分配角色权限,用户组选择superGroup,角色建议全选,然后根据页面提示完成用户的创建。
- MRS 2.x及之前版本集群,所创建的用户需要具备Manager_administrator或System_administrator权限,才能在管理中心创建连接。
- 仅具备Manager_tenant或Manager_auditor权限,无法创建连接。
- 使用新建的用户登录MRS Manager页面,并更新初始密码,否则会导致创建连接失败。
- 同步IAM用户。
- 登录MRS管理控制台。
- 选择“集群列表 > 现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
- 在“概览”页签的基本信息区域,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。
- 当IAM用户的用户组的所属策略从MRS ReadOnlyAccess向MRS CommonOperations、MRS FullAccess、MRS Administrator变化时,由于集群节点的SSSD(System Security Services Daemon)缓存刷新需要时间,因此同步完成后,请等待5分钟,等待新修改策略生效之后,再进行提交作业。否则,会出现提交作业失败的情况。
- 当IAM用户的用户组的所属策略从MRS CommonOperations、MRS FullAccess、MRS Administrator向MRS ReadOnlyAccess变化时,由于集群节点的SSSD缓存刷新需要时间,因此同步完成后,请等待5分钟,新修改策略才能生效。
编辑数据连接
- 登录DataArts Studio管理中心控制台,单击“数据连接”,进入数据连接页面。
- 在数据连接列表中,找到所需编辑的连接,然后单击“编辑”。
- 在“编辑数据连接”对话框中,根据需要修改连接参数,参数描述可参考数据连接参数说明。
- 完成修改后,单击“测试”测试数据连接的是否可以正常连接,如果可以正常连接,单击“确定”。
如果测试连接无法连通,数据连接将无法创建,请根据错误提示重新修改连接参数后再进行重试。
删除数据连接
若删除数据连接,此数据连接下的数据表信息也会被删除,请谨慎操作。删除数据连接时,若待删除的连接已被引用,则不可删除,反之,可删除。
- 登录DataArts Studio管理中心控制台,单击“数据连接”,进入数据连接页面。
- 在数据连接列表中,找到所需删除的连接,然后单击“删除”。
- 在删除确认对话框中,了解删除连接的影响后,若要删除,单击“确定”。