创建DataArts Studio数据连接
通过配置数据源信息,可以建立数据连接。DataArts Studio基于管理中心的数据连接对数据湖底座进行数据开发、治理、服务和运营。
配置开发和生产环境的数据连接后,数据开发时脚本/作业中的开发环境数据连接通过发布流程后,将自动切换对应生产环境的数据连接。
约束限制
- RDS数据连接方式依赖于OBS。如果没有与DataArts Studio同区域的OBS,则不支持RDS数据连接。
- 主机连接当前仅支持Linux系统主机。
- 当所连接的数据湖发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。
- 数据连接中的数据湖认证信息如果发生变化(如密码过期)时,此连接会失效。建议您将数据湖认证信息设定为永久有效,避免由于连接失败导致业务受损。
-
当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。
前提条件
- 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。
- 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。
- 在创建MRS HBase、MRS Hive等MRS类型的数据连接前,需确保您已购买MRS集群,集群的“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”,并且集群中包含所需要的组件。
- 在创建数据连接前,请确保待连接的数据湖与DataArts Studio实例之间网络互通。
- 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。
- 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件:
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
- 此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
- 如果使用企业模式,您还需要注意以下事项:
由于企业模式下需要区分开发环境和生产环境,因此您需要分别准备对应生产环境和开发环境的两套数据湖服务,用于隔离开发和生产环境:
- 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),如果使用两套集群,DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。创建数据连接的详细操作请参见创建DataArts Studio数据连接。
- 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。
- 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。
- 离线处理集成作业不支持在企业模式下运行。
例如,当您的数据湖服务为MRS集群时,需要准备两套MRS集群,且版本、规格、组件、区域、VPC、子网等保持一致。如果某个MRS集群修改了某些配置,也需要同步到另一套MRS集群上。
创建数据连接
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
- 在管理中心页面,单击“数据连接”,进入数据连接页面并单击“创建数据连接”。
图1 创建数据连接
- 在创建连接页面中,选择“数据连接类型”,并参见表1配置相关参数。
- 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),如果使用两套集群,DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。创建数据连接的详细操作请参见创建DataArts Studio数据连接。
- 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。
- 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。
- 离线处理集成作业不支持在企业模式下运行。
表1 数据连接 数据连接类型
参数说明
DWS
请参见DWS数据连接参数说明。
DLI
请参见DLI数据连接参数说明。
MRS Hive
请参见MRS Hive数据连接参数说明。
MRS HBase
MRS Kafka
MRS Spark
MRS Clickhouse
MRS Hetu
请参见MRS Hetu数据连接参数说明。
MRS Impala
MRS Presto
MRS Doris
请参见Doris数据连接参数说明。
OpenSource Clickhouse
RDS
请参见RDS数据连接参数说明。
RDS连接类型支持连接RDS中的MySQL/PostgreSQL/达梦数据库 DM/SQL Server/SAP HANA等关系型数据库。
MySQL(待下线)
不建议使用MySQL(待下线)连接器,推荐使用RDS连接MySQL数据源,请参见RDS数据连接参数说明。
ORACLE
请参见ORACLE数据连接参数说明。
DIS
请参见DIS数据连接参数说明。
主机连接
请参见主机连接参数说明。
Rest Client
Redis
请参见Redis数据连接参数说明。
SAP HANA
请参见SAP HANA数据连接参数说明。
- 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。
- 测试通过后,单击“保存”,完成数据连接的创建。
相关操作
- 编辑数据连接:在数据连接页面的连接列表中,找到所需编辑的连接,然后单击“编辑”。根据需要修改连接参数,参数描述可参考表1。
编辑时如果不涉及修改密码,可不填写此项,系统会自动带入上次连接创建时的密码。
完成修改后,单击“测试”去测试数据连接是否可以正常连接,如果可以正常连接,单击“保存”。如果测试连接无法连通,数据连接将无法创建,请根据错误提示重新修改连接参数后再进行重试。
- 删除数据连接:在数据连接页面的连接列表中,找到所需删除的连接,然后单击“删除”。在删除确认对话框中,了解删除连接的影响后,若要删除,单击“确定”。
如果待删除的连接已被引用,则不可直接删除。删除前需要根据删除提示窗口中的数据连接引用列表,到各组件中解除对该连接的引用,然后再尝试重新删除。
若删除数据连接,此数据连接下的数据表信息也会被删除,请谨慎操作。