更新时间:2023-05-19 GMT+08:00

流生态作业开发指引

概述

流生态系统基于Flink和Spark双引擎,完全兼容Flink/Storm/Spark开源社区版本接口,并且在此基础上做了特性增强和性能提升,为用户提供易用、低时延、高吞吐的数据湖探索。

数据湖探索的流生态开发包括云服务生态、开源生态和自拓展生态:
  • 云服务生态

    DLI服务在Stream SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据,如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。

  • 开源生态

    通过对等连接建立与其他VPC的网络连接后,用户可以在DLI的租户独享集群中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。

  • 自拓展生态

    用户可通过编写代码实现从想要的云生态或者开源生态获取数据,作为Flink作业的输入数据。

云服务生态开发

表1 云服务生态开发一览表

数据源

SQL

自定义作业

输入流:从其他服务或数据库中获取数据

输出流:将处理后的数据写入到其他服务或数据库中

表格存储服务 CloudTable

HBase输入流

-

云搜索服务 CSS

-

Elasticsearch输出流

-

分布式缓存服务 DCS

-

DCS输出流

自定义作业交互

文档数据库服务 DDS

-

DDS输出流

-

数据接入服务 DIS

DIS输入流

DIS输出流

-

分布式消息服务 DMS

DMS输入流

DMS输出流

-

数据仓库服务 DWS

-

自定义作业交互

MapReduce服务 MRS

MRS Kafka输入流

自定义作业交互

对象存储服务 OBS

OBS输入流

OBS输出流

-

关系型数据库 RDS

-

RDS输出流

-

消息通知服务 SMN

-

SMN输出流

-

开源生态开发

表2 开源生态开发一览表

数据源

SQL

自定义作业

输入流

输出流

Apache Kafka

开源Kafka输入流

开源Kafka输出流

-

自拓展生态开发

表3 自拓展生态开发一览表

数据源

SQL

自定义作业

输入流

输出流

自拓展

自拓展输入流

自拓展输出流

-

流生态开发支持的数据格式

DLI Flink作业支持如下数据格式:

Avro,Avro_merge,BLOB,CSV,EMAIL,JSON,ORC,Parquet,XML。