更新时间:2022-07-01 GMT+08:00

简介

什么是DLI

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Apache Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。

功能优势

  • 纯SQL操作

    DLI提供标准SQL接口,用户仅需使用SQL便可实现海量数据查询分析。

  • 存算分离

    DLI的存储和计算解耦,分开申请和计费,降低成本的同时,提高了资源利用率。

  • 企业级多租户

    支持计算资源按租户隔离,数据权限控制到队列、作业,帮助企业实现部门间的数据共享和权限管理。

  • 免运维、高可用

    用户无需感知底层运维、升级,跨AZ高可用,跨AZ双活。

DLI核心引擎:Spark+Flink+openLooKeng(Presto)

  • Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。
  • Flink是一款分布式的计算引擎,可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所必须的Stream SQL特性。
  • openLooKeng使用了业界著名的开源SQL引擎Presto来提供交互式查询分析基础能力,并继续在融合场景查询、跨数据中心/云、数据源扩展、性能、可靠性、安全性等方面发展,让数据治理、使用更简单。

DLI服务架构:Serverless

DLI是无服务器化的大数据查询分析服务,其优势在于:

  • 按量计费:真正的按使用量(扫描量/CU时)计费,不运行作业时0费用。
  • 自动扩缩容:根据业务负载,对计算资源进行预估和自动扩缩容。