更新时间:2022-08-12 GMT+08:00

跨源连接和跨源分析概述

DLI支持原生Spark的DataSource能力,并在其基础上进行了扩展,能够通过SQL语句、Spark作业或者Flink作业访问其他数据存储服务并导入、查询、分析处理其中的数据。

跨源连接

在使用DLI进行跨源分析前,需要先建立跨源连接,打通数据源之间的网络。

DLI增强型跨源连接底层采用对等连接,直接打通DLI队列与目的数据源的VPC网络,通过点对点的方式实现数据互通。

  • 系统default队列不支持创建跨源连接。
  • 跨源连接需要使用VPC、子网、路由、对等连接功能,因此需要获得VPC(虚拟私有云)的VPC Administrator权限。可在服务授权中进行设置。

跨源分析

增强型跨源支持DLI服务已实现的所有跨源业务,并且通过可以UDF、Spark作业和Flink作业等方式实现与自建数据源之间的访问。

目前DLI支持跨源访问的数据源包括:CloudTable HBase,CloudTable OpenTSDB,CSS,DCS Redis,DDS Mongo,DIS,DMS Kafka,DWS,MRS HBase,MRS Kafka,MRS OpenTSDB,OBS,RDS MySQL,RDS PostGre,SMN。

  • 访问跨源表需要使用已经创建跨源连接的队列。
  • 跨源表不支持Preview预览功能。

跨源分析流程

使用DLI进行跨源分析,需要先建立跨源连接,再开发不同的作业访问数据源。操作步骤如下:

  1. 创建跨源连接。包括以下两种创建方式:
    • 通过管理控制台创建跨源连接。
    • 通过API接口创建创建跨源连接。
  2. 开发DLI作业访问数据源。包括以下三种访问方式:
    • 开发SQL作业访问数据源。
    • 开发Spark作业访问数据源。
    • 开发Flink作业访问数据源

以下分别为开发SQL作业、Spark作业和Flink作业进行跨源连接的基本流程。

  • SQL作业
    图1 SQL跨源分析流程
  • Spark作业
    图2 Spark跨源分析流程
  • Flink作业
    图3 Flink跨源分析流程