新建DataArts Studio与DWS数据湖的连接

本章节以新建DWS连接为例，介绍如何建立DataArts Studio与数据仓库底座之间的数据连接。

前提条件

在创建数据连接前，请确保您已创建所要连接的数据湖（如DataArts Studio所支持的数据库、云服务等）。
- 在创建DWS类型的数据连接前，您需要先在DWS服务中创建集群，并且具有KMS密钥的查看权限。
- 在创建MRS HBase、MRS Hive等MRS类型的数据连接前，需确保您已购买MRS集群，集群的“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”，并且集群中包含所需要的组件。
在创建数据连接前，请确保您已具备连接所需的Agent代理（即CDM集群，如果无可用CDM集群请参考创建CDM集群进行创建），且待连接的数据湖与CDM集群之间网络互通。
- 如果数据湖为云下的数据库，则需要通过公网或者专线打通网络。请确保数据源所在的主机和CDM集群均能访问公网，并且防火墙规则已开放连接端口。
- 如果数据湖为云上服务（如DWS、MRS等），则网络互通需满足如下条件：
  - CDM集群与云上服务处于不同区域的情况下，需要通过公网或者专线打通网络。
  - CDM集群与云上服务同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则，配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。
  - 此外，您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同，如果不同，您需要修改工作空间的企业项目。
如果使用企业模式，您还需要注意以下事项：
由于企业模式下需要区分开发环境和生产环境，因此您需要分别准备对应生产环境和开发环境的两套数据湖服务，用于隔离开发和生产环境：
- 对于集群化的数据源（例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS等），如果使用两套集群，DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务，在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务，且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息，均应保持一致。创建数据连接的详细操作请参见创建数据连接。
- 对于Serverless服务（例如DLI），DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系，在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源，建议通过名称后缀进行区分，详细操作请参见配置DataArts Studio企业模式环境隔离。
- 对于DWS、MRS Hive和MRS Spark这三种数据源，如果在创建数据连接时选择同一个集群，则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离，详细操作请参见DB配置。
- 离线处理集成作业不支持在企业模式下运行。
例如，当您的数据湖服务为MRS集群时，需要准备两套MRS集群，且版本、规格、组件、区域、VPC、子网等保持一致。如果某个MRS集群修改了某些配置，也需要同步到另一套MRS集群上。

创建数据连接

登录DataArts Studio管理控制台。

详情请参考访问DataArts Studio实例控制台。
在DataArts Studio控制台首页，选择对应工作空间的“管理中心”模块，进入管理中心页面。
在管理中心页面，单击“数据连接”，进入数据连接页面并单击“创建数据连接”。

图1 创建数据连接

单击“创建数据连接”，在弹出的页面中，选择“数据连接类型”为“数据仓库服务（DWS）”，并参见表1配置相关参数。

图2 DWS连接配置参数
点击放大

表1 DWS数据连接
参数	是否必选	说明
数据连接类型	是	DWS连接固定选择为数据仓库服务（DWS）。
数据连接名称	是	数据连接的名称，只能包含字母、数字、下划线和中划线，且长度不超过100个字符。
描述	否	为更好地识别数据连接，此处加以描述信息，长度不能超过100个字符。
标签	否	标识数据连接的属性。设置标签后，便于统一管理。说明：标签的名称，只能包含中文、英文字母、数字和下划线，不能以下划线开头，且长度不能超过100个字符。
适用组件	是	选择此连接适用的组件。勾选组件后，才能在相应组件内使用本连接。说明：当开启离线数据集成或实时数据集成作业特性后，可勾选数据集成组件，勾选后在数据开发组件创建集成作业时支持选择本数据连接。离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性，请联系客服或技术支持人员。
基础与网络连通配置
SSL加密	是	DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。开关打开，即只能通过SSL方式进行通信。开关关闭，SSL通道加密和证书认证两种方式均可进行通信。
手动	是	选择连接模式。使用集群名模式时，通过选择已有集群名称进行连接配置。使用连接串模式时，手动填写对应集群的IP或域名、端口进行连接配置，且需打通本连接Agent（即CDM集群）和DWS集群之间的网络。
DWS集群名	是	“手动”选择为“集群名模式”时需要配置本参数。选择DWS集群，系统会显示所有项目ID和企业项目相同的DWS集群。说明：建议选择英文集群名，选择中文集群名将会导致创建数据连接失败。
JDBC连接IP或域名	否	“手动”选择为“集群名模式”时需要配置本参数。下拉选择DWS ELB域名或ELB IP，建议优先配置DWS ELB域名，如果DWS不支持则配置ELB IP。
IP或域名	是	“手动”选择为“连接串模式”时需要配置本参数。表示通过内部网络访问集群数据库的访问地址，可填写为IP或域名。内网访问IP或域名地址在创建集群时自动生成，您可以通过管理控制台获取访问地址：根据注册的账号登录DWS云服务管理控制台。从左侧列表选择实例管理。单击某一个实例名称，进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。
端口	是	“手动”选择为“连接串模式”时需要配置本参数。表示创建DWS集群时指定的数据库端口号。请确保您已在安全组规则中开放此端口，以便DataArts Studio实例可以通过该端口连接DWS集群数据库。
KMS加密密钥	是	通过KMS加解密数据源认证信息，选择KMS中的任一默认密钥或自定义密钥即可。说明：第一次通过DataArts Studio或KPS使用KMS加密时，会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息，请参见什么是默认密钥章节。仅支持通过对称密钥加密，暂不支持非对称密钥。
绑定Agent	是	DWS为非全托管服务，DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理，所以创建DWS的数据连接时，请选择一个CDM集群。如果没有可用的CDM集群，请参考创建CDM集群进行创建。 CDM集群作为网络代理，必须和DWS集群网络互通才可以成功创建DWS连接，为确保两者网络互通，CDM集群必须和DWS集群处于相同的区域、可用区，且使用同一个VPC和子网，安全组规则需允许两者网络互通。说明： CDM集群作为管理中心数据连接Agent时，单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时，通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200，超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。
数据源认证及其他功能配置
用户名	是	数据库的用户名，创建DWS集群时指定的用户名。
密码	是	数据库的访问密码，创建DWS集群时指定的密码。
元数据实时同步	是	打开元数据实时同步开关后，连接的DWS集群元数据会实时同步到数据地图组件，推荐开启。说明： DWS集群8.2.0及以上版本支持元数据实时同步功能。元数据实时同步功能是否开启，会被DataArts Studio实例内的同DWS集群连接影响，最终是否开启取决于最近配置的连接中的开关状态。即当一个DWS连接关闭或者开启实时同步，所有同DWS集群连接都会同步开启或者关闭实时同步。例如DataArts Studio实例内同一工作空间内或者跨工作空间的两个DWS连接（连接的是相同DWS集群），先配置的连接打开元数据实时同步开关，后配置的连接关闭元数据实时同步开关，则最终此DWS集群的元数据实时同步功能为关闭状态。如果先配置的连接关闭开关，后配置的连接打开开关，则最终此DWS集群的元数据实时同步功能为开启状态。
元数据采集范围	否	配置元数据实时同步的数据库和数据表范围，不填写默认不筛选。可填写为如下两种形式之一： database_name：筛选数据库名包含“database_name”的数据库 database_name.table_name：筛选数据库名包含“database_name”的数据库，在匹配到的数据库中再匹配表名包含“table_name”的数据表例如：填写为“datatest”，则元数据实时同步将同步数据库名包含“datatest”的数据库中的数据表。填写为“datatest.table1”，则元数据实时同步将同步如下数据表：数据库名包含“datatest”的数据库，其中表名包含“table_name”的数据表。
数据集成配置
数据库名称	是	适用组件勾选数据集成后，呈现此参数。配置为要连接的数据库名称。
单次请求行数	否	适用组件勾选数据集成后，呈现此参数。指定每次请求获取的行数，根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小，可能影响作业的时长。
连接属性	否	适用组件勾选数据集成后，呈现此参数。可选参数，自定义连接属性，单击“添加”可增加多个属性。常见配置举例如下： connectTimeout=60与socketTimeout=300：迁移数据量较大、或通过查询语句检索全表时，会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间（单位秒），避免超时导致失败。说明：在DWS连接数据库服务器时，如果配置了多个IP地址且开启了SSL加密，那么需要在连接属性中增加sslmode=require，否则会导致连接失败并报错。
引用符号	否	适用组件勾选数据集成后，呈现此参数。可选参数，连接引用表名或列名时的分隔符号，参考对应数据库的产品文档进行配置。默认为"。

单击“测试”，测试数据连接的连通性。如果无法连通，数据连接将无法创建。
测试通过后，单击“保存”，创建数据连接。

参考

创建DWS数据连接，开启SSL连接时测试连接失败？
请在DWS控制台，单击进入对应的DWS集群后，选择“安全设置”，然后关闭三权分立功能。
图3 关闭DWS集群三权分立功能
为什么DWS数据连接突然无法获取数据库或表的信息？
可能是由于CDM集群被关闭或者并发冲突导致，您可以通过切换agent代理来临时规避此问题。