更新时间:2022-08-12 GMT+08:00
跨源连接和跨源分析概述
DLI支持原生Spark的DataSource能力,并在其基础上进行了扩展,能够通过SQL语句、Spark作业或者Flink作业访问其他数据存储服务并导入、查询、分析处理其中的数据。
跨源连接
在使用DLI进行跨源分析前,需要先建立跨源连接,打通数据源之间的网络。
DLI增强型跨源连接底层采用对等连接,直接打通DLI队列与目的数据源的VPC网络,通过点对点的方式实现数据互通。
- 系统default队列不支持创建跨源连接。
- 跨源连接需要使用VPC、子网、路由、对等连接功能,因此需要获得VPC(虚拟私有云)的VPC Administrator权限。可在服务授权中进行设置。
跨源分析
增强型跨源支持DLI服务已实现的所有跨源业务,并且通过可以UDF、Spark作业和Flink作业等方式实现与自建数据源之间的访问。
目前DLI支持跨源访问的数据源包括:CloudTable HBase,CloudTable OpenTSDB,CSS,DCS Redis,DDS Mongo,DIS,DMS Kafka,DWS,MRS HBase,MRS Kafka,MRS OpenTSDB,OBS,RDS MySQL,RDS PostGre,SMN。
- 访问跨源表需要使用已经创建跨源连接的队列。
- 跨源表不支持Preview预览功能。
跨源分析流程
使用DLI进行跨源分析,需要先建立跨源连接,再开发不同的作业访问数据源。操作步骤如下:
- 创建跨源连接。包括以下两种创建方式:
- 通过管理控制台创建跨源连接。
- 通过API接口创建创建跨源连接。
- 开发DLI作业访问数据源。包括以下三种访问方式:
- 开发SQL作业访问数据源。
- 开发Spark作业访问数据源。
- 开发Flink作业访问数据源
以下分别为开发SQL作业、Spark作业和Flink作业进行跨源连接的基本流程。
- SQL作业
图1 SQL跨源分析流程
- Spark作业
图2 Spark跨源分析流程
- Flink作业
图3 Flink跨源分析流程
父主题: 跨源连接