文档首页/ 数据湖探索 DLI/ 产品介绍/ 数据湖探索简介

更新时间：2025-11-17 GMT+08:00

查看PDF

数据湖探索简介

什么是数据湖探索

数据湖探索（Data Lake Insight，简称DLI）是完全兼容Apache Spark、Apache Flink、HetuEngine生态，提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器，即开即用。

DLI支持标准SQL、Spark SQL、Flink SQL，支持多种接入方式，并兼容主流数据格式。数据无需复杂的抽取、转换、加载，使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。

视频简介

视频介绍什么是数据湖探索服务。

DLI计算引擎

DLI提供了多种计算引擎，Spark引擎、Flink引擎、HetuEngine，分别适用于不同的数据处理场景。

Spark更适合大规模数据的批处理和复杂分析，而Flink则在实时流处理方面表现出色。HetuEngine是高性能交互式SQL分析及数据虚拟化引擎。

功能特点：
Spark是用于大规模数据处理的统一分析引擎，聚焦于查询计算分析。

DLI在开源Spark基础上进行了大量的性能优化与服务化改造，不仅兼容Apache Spark生态和接口，性能较开源提升了2.5倍，在小时级即可实现EB级数据查询分析。

DLI的Spark引擎支持大规模数据的批处理和交互式分析，提供高性能的分布式计算能力。
适用场景：
- 适用于需要进行大规模数据批处理和复杂数据分析的场景。
- 适合对历史数据进行深度挖掘和分析，例如数据仓库中的数据查询和报表生成。

功能特点
- Flink是一款分布式计算引擎，既可以用于批处理，也可以用于流处理。
- DLI在开源Flink基础上进行了特性增强和安全增强，提供了数据处理所需的Stream SQL特性。
- 支持实时流处理，能够处理大规模的实时数据流，支持事件时间处理和状态管理
适用场景
- 适用于需要实时处理数据流的场景，例如实时监控系统、实时推荐系统。
- 适合对实时数据进行快速分析和响应，例如金融交易监控、物联网设备数据处理。

功能特点
HetuEngine是高性能交互式SQL分析及数据虚拟化引擎，能够与大数据生态无缝融合，实现海量数据的秒级交互式查询。

HetuEngine+LakeFormation能够快速处理大规模数据集的查询请求，迅速和高效从大数据中提取信息，极大地简化了数据的管理和分析流程，提升大数据环境下的索引和查询性能。

了解更多HetuEngine请参考HetuEngine语法参考。

图1 DLI支持HetuEngine+LakeFormation
- TB级数据秒级响应：
  HetuEngine通过自动优化资源与负载的配比，能够对TB级数据实现秒级响应，极大提升了数据查询的效率。
- Serverless资源开箱即用：
  Serverless服务模式无需关注底层配置、软件更新和故障问题，资源易维护，易扩展。
- 多种资源类型满足不同场景业务需求：
  共享资源池：按量计费，提供更具性价比的计算资源。
  
  独享资源池：提供独享资源池，满足高性能资源需求。
- 数据生态增强：
  HetuEngine+LakeFormation支持与永洪BI、FineBI、DBeaver等主流BI工具的对接，增强数据分析领域的应用能力。
- 实时数据处理性能提升5倍：
  HetuEngine+LakeFormation支持Apache Hudi的COW和MOR表。点查性能上相较于开源的Trino提升5倍，可以更快地响应查询请求，提供实时的数据访问。
适用场景
适用于大规模数据存储中进行数据查询和分析。

核心功能

DLI详细的功能清单请参考DLI功能总览。

表1 DLI核心功能
功能分类	功能描述
DLI是基于Serverless架构的数据处理和分析服务	DLI是无服务器化的大数据查询分析服务，使用DLI服务您只需为实际使用的弹性计算资源付费，无需维护和管理云服务器。计算资源按量计费：真正的按使用量（扫描量/CU时）计费，不运行作业时0费用。自动扩缩容：根据业务负载，对计算资源进行预估和自动扩缩容。
DLI支持多种类型的计算引擎	完全兼容Apache Spark、Apache Flink、HetuEngine等生态，支持标准SQL、Spark SQL、Flink SQL，兼容CSV、JSON、Parquet和ORC主流数据格式。 Spark是用于大规模数据处理的统一分析引擎，聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造，不仅兼容Apache Spark生态和接口，性能较开源提升了2.5倍，在小时级即可实现EB级数据查询分析。 Flink是一款分布式的计算引擎，可以用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时地处理一些实时数据流，实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强，提供了数据处理所必须的Stream SQL特性。 HetuEngine是提供交互式查询分析能力的开源分布式SQL查询引擎，具备高性能、低延迟的查询处理能力，支持在大规模数据存储中进行数据查询和分析。了解更多HetuEngine请参考产品优势。
DLI支持多种连接方式	DLI提供了多种连接方式满足不同的用户需求和使用场景。 DLI支持的链接方式：控制台方式 API方式 SDK方式客户端工具使用DataArts服务提交DLI作业对接BI工具的可视化分析更多DLI连接方式的介绍请参考DLI支持的开发工具。
DLI支持对接多种数据源的跨源分析	Spark跨源连接：可通过DLI访问CloudTable，DWS，RDS和CSS等数据源。具体内容请参考《数据湖探索用户指南》。 Flink跨源支持与多种云服务连通，形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态：云服务生态：数据湖探索在Flink SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据。如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。开源生态：通过增强型跨源连接建立与其他VPC的网络连接后，用户可以在数据湖探索的租户授权的队列中访问所有Flink和Spark支持的数据源与输出源，如Kafka、Hbase、ElasticSearch等。具体内容请参见《数据湖探索开发指南》。
DLI支持的三大基本作业类型	SQL作业支持SQL查询功能：可为用户提供标准的SQL语句。具体内容请参考《数据湖探索SQL语法参考》。 Flink作业支持Flink SQL在线分析功能：支持Window、Join等聚合函数，用SQL表达业务逻辑，简便快捷实现业务。具体内容请参考Flink OpenSource SQL语法参考。 Spark作业提供全托管式Spark计算特性：用户可通过交互式会话(session)和批处理(batch)方式提交计算任务，在全托管Spark队列上进行数据分析。具体内容请参考《数据湖探索API参考》。
DLI支持存算分离	用户将数据存储到OBS后，DLI可以直接和OBS对接进行数据分析。存算分离的架构下，使得存储资源和计算资源可以分开申请和计费，降低了成本并提高了资源利用率。存算分离场景下，DLI支持OBS在创建桶时数据冗余策略选择单AZ或者多AZ存储，两种存储策略区别如下：选择多AZ存储，数据将冗余存储至多个AZ中，可靠性更高。选择多AZ存储的桶，数据将存储在同一区域的多个不同AZ。当某个AZ不可用时，仍然能够从其他AZ正常访问数据，适用于对可靠性要求较高的数据存储场景。建议优选使用多AZ存储的策略。选择单AZ存储，数据仅存储在单个AZ中，但相比多AZ更加便宜。收费详情请参见OBS产品价格详情。
DLI通过弹性资源池实现对资源的统一的管理和调度	弹性资源池后端采用CCE集群的架构，支持异构，对资源进行统一的管理和调度。详细内容可以参考DLI用户指南的弹性资源池和队列简介。

DLI产品结构

DLI的产品结构如下：

图2 DLI Serverless架构
点击放大

DLI产品架构中包括以下核心模块：

表2 DLI架构核心模块简介
模块名称	功能说明
生态工具	数据湖探索（DLI）通过其强大的Serverless架构和多模引擎支持，能够满足不同行业的多样化需求，推动各行业的数字化转型和创新。
计算引擎	Spark：支持大规模数据的批处理和交互式分析，提供高性能的分布式计算能力。 Flink：支持实时流处理，能够处理大规模的实时数据流，支持事件时间处理和状态管理。 HetuEngine：支持交互式数据分析，能够快速处理复杂的SQL查询，支持多种数据源的连接和查询。更多HetuEngine请参考产品优势。
统一资源管理	资源解耦：DLI采用存算分离架构，将计算资源和存储资源解耦，您可以根据实际需求灵活调整计算资源和存储资源的配比，提高资源利用率，降低成本。弹性伸缩：DLI计算资源基于容器化Kubernetes，具有弹性伸缩能力。能够根据作业需求自动调整资源配置，响应作业需求。多租户支持：支持计算资源按租户隔离，确保不同租户之间的资源独立。每个租户可以独立管理自己的计算资源，实现资源的精细化管理，帮助企业实现部门间的数据共享和权限管理。计算资源按量付费：您只需为实际使用的计算资源付费，无需预先购买和管理服务器，提高资源的使用效率。
统一元数据管理	多源元数据整合：DLI支持对多种数据源的元数据进行统一管理，包括云上数据源（如OBS、RDS、DWS、CSS等）和云下数据源（如自建数据库、Redis等）。您无需将数据搬迁到统一的数据湖中，即可实现对不同数据源的元数据的管理和分析。元数据同步：DLI提供的元数据管理功能确保元数据的实时性和一致性。元数据查询与管理：DLI提供标准SQL接口，用户可以使用SQL语句查询和管理元数据。支持对元数据的增删改查操作，方便用户进行数据治理和分析。数据安全与权限管理：支持数据目录、数据库和表的权限管理。用户可以对不同租户和用户组设置不同的权限，确保数据的安全性和合规性。
存储服务	使用OBS、数据库存储用于数据分析的结构化或非结构化数据，提供数据的持久化存储服务。
数据源连接	支持对接云上数据源，例如OBS：对象存储服务，用于存储和管理非结构化数据。RDS关系型数据库服务，用于存储和管理结构化数据。DWS数据仓库服务，用于高效的数据查询和分析。支持对接云下数据源，例如自建数据库场景，如MySQL、PostgreSQL、HDFS数据。
数据应用	支持对接业界主流BI工具、灵活满足数据展示需求。

如何访问DLI

云服务平台提供了Web化的服务管理平台，既可以通过管理控制台和基于HTTPS请求的API（Application programming interface）管理方式来访问DLI，又可以通过JDBC客户端连接DLI服务端。

更多DLI连接方式请参考DLI支持的开发工具。

管理控制台方式
 提交SQL作业、Spark作业或Flink作业，均可以使用管理控制台方式访问DLI服务。

登录管理控制台，从主页选择“EI企业智能”>“EI大数据”>“数据湖探索”。

API方式
 如果用户需要将云平台上的DLI服务集成到第三方系统，用于二次开发，可以使用API方式访问DLI服务。

具体操作请参见《数据湖探索API参考》。
JDBC
DLI支持使用JDBC连接服务端进行数据查询操作。具体内容请参考《数据湖探索开发指南》。
数据治理中心DataArts Studio
数据治理中心DataArts Studio具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台，支持行业知识库智能化建设，支持大数据存储、大数据计算分析引擎等数据底座，帮助企业快速构建从数据接入到数据分析的端到端智能数据系统，消除数据孤岛，统一数据标准，加快数据变现，实现数字化转型。

在DataArts Studio管理中心控制台创建数据连接即可访问DLI，进行数据分析。

关于DataArts Studio的操作指导请参考《数据治理中心产品文档》。

上一篇：图解数据湖探索

下一篇：产品优势

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问