什么是AI DataLake

智能数据湖（AI DataLake）是华为云构建的企业级多模态智能数据分析与管理平台，为您提供构建AI时代数据基础设施的完整能力。AI DataLake提供多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink四大核心计算引擎，聚焦多模数据处理、异构算力混合调度，开放湖仓处理，构建新一代多模湖仓架构，促进Data+AI协同创新。

AI DataLake以工作空间为载体，采用数据、资源、引擎三层解耦架构实现灵活高效的企业级数据管理：

数据与引擎解耦：所有引擎共享同一份数据，通过多模数据管理平台统一治理数据资产，避免数据孤岛和数据冗余，确保数据一致性。
资源与引擎解耦：支持多引擎共用资源池，细粒度管理通算、智算资源，通过资源的灵活配置和调度，提升资源利用率。
资源与数据解耦：数据跨智算与通算资源流通，灵活支撑交互式分析、多模分析、批处理、实时计算、AI计算等多样化数据业务场景。

您只需在AI DataLake创建一个工作空间，即可开始资源管理和数据处理，无需关注底层基础设施的运维，快速构建企业级多模数据处理环境。

公测期间开放功能说明

AI DataLake公测期间仅开放部分功能，表1介绍了各个引擎在公测期间支持的功能。了解更多AI DataLake功能请参考产品功能。

AI DataLake公测期间支持的引擎：多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark。了解各个引擎的版本说明请参考AI DataLake版本说明。
支持使用的计算资源类型：
- 预留资源池：包年/包月、按需计费。
- 弹性资源：按需计费。
数据开发：支持使用DataArts Studio及API形式的数据开发。

表1 公测期间开放的端点类型和资源使用模式
功能	端点类型	端点资源使用模式
多模数据引擎Aura	AuraJob AuraJobV2	预留资源混合模式
AI计算引擎Ray	RayCluster	预留资源
AI计算引擎Ray	RayJob	预留资源混合模式按需弹性
批处理引擎Spark	SparkSQL SparkJob	预留资源混合模式按需弹性

视频简介

视频介绍什么是智能数据湖（AI DataLake）服务。

产品架构

AI DataLake是面向企业的新一代多模态智能数据分析与管理平台，图1介绍了AI DataLake的产品架构。

图1 AI DataLake架构图
点击放大

AI DataLake公测期间暂不支持以下模块：Flink引擎、Notebook、SQL编辑器、Model。

AI DataLake产品架构自下而上来看：

基于OBS对象存储，构建海量数据存储能力。通过LakeFormation实现统一治理，灵活满足企业级数据分析与AI业务需求。
在数据治理层，LakeFormation作为统一治理核心，提供元数据管理与权限控制能力。数据资产按层级组织分为Catalog、Database、Table、UDF、Dataset、Model等扩展对象。
工作空间作为核心管理单元，每个空间绑定一个LakeFormation数据目录实例，实现数据目录管理，同时隔离计算资源，提供轻量级作业开发。
- 在资源管理层，平台提供三种灵活的资源使用模式：预留资源模式通过绑定预留资源池保障业务稳定性；按需弹性模式下可根据负载自动伸缩以提升资源利用率；混合模式结合两者优势，兼具预留资源池的稳定性与按需资源的灵活性，有效应对业务变化。
  资源池支持配置最小保障配额（确保业务连续性）和最大配额（防止资源耗尽）。购买预留资源池或按需使用资源，灵活配置端点与资源池的绑定关系，并通过Min、Max控制资源弹性范围。
  
  平台同时支持CPU、GPU、NPU类型实例，满足不同业务场景的差异化需求。
  
  每个计算资源池支持独立配置和管理，一个工作空间可创建多个计算资源池，既提升了资源利用效率，也为大数据分析业务场景提供了资源调配的灵活性。
- 在计算引擎层，AI DataLake集成四大核心引擎：Aura支持多模态数据的分析场景，Ray专注于AI计算处理，Spark用于大规模批量数据处理，Flink提供高吞吐实时流处理能力，四大引擎赋能多场景的数据应用。
- 在作业开发层，您可以通过Notebook进行交互式作业开发，支持Python、Scala等编程语言；同时提供SQL编辑器，满足实时交互查询与即席分析需求。支持与DataArts Studio交互，依托DataArts Studio的作业开发模块完成数据查询、数据处理、数据转换等任务。

在数据应用层，AI DataLake支持湖仓分析、交互式分析、批量数据处理、多模数据分析等多种业务场景。

核心优势

本节介绍AI DataLake核心优势，更多产品优势请参考产品优势。

多引擎协同，灵活适配业务，弹性算力，按需调配资源
- 支持多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink，聚焦多模数据处理，灵活适配业务需求。
- 提供预留资源、弹性资源、混合模式三种资源使用模式，按业务需求灵活选择。预留资源池保障核心业务稳定性，弹性资源根据负载自动伸缩提升资源利用率，混合模式兼顾性能与成本。
统一元数据管理，释放数据价值
LakeFormation统一治理数据资产，避免数据孤岛和数据冗余，确保数据一致性，解决多任务调度场景因数据存盘导致数据效率低的问题。
新一代多模数据引擎Aura、AI计算引擎Ray，专为多模态数据处理而生
- 融合结构化表、非结构化文件（图像/音视频/文档）与向量数据，构建多模态统一湖仓。
- Aura引擎、Ray引擎原生支持AI计算，赋能多模分析、AI计算等多样化数据业务场景。

访问方式

AI DataLake提供了多种访问方式。

当前提供了Web化的服务管理平台，即管理控制台和基于HTTPS请求的API（Application Programming Interface）管理方式。

控制台方式
AI DataLake支持通过管理控制台访问，创建工作空间，创建引擎端点后即可开发作业，在管理控制台完成数据开发。

API方式
如果您需要将AI DataLake集成到第三方系统，用于二次开发，请使用API方式访问AI DataLake。具体操作和API详细描述，请参见《AI DataLake API参考》。

快速上手使用AI DataLake

通过AI DataLake，您只需简单的几步操作即可开始数据开发：创建工作空间、创建计算资源池、选择计算引擎、配置端点、开发作业。

在开始使用AI DataLake前，您需完成华为云账号注册、实名认证及相关服务授权，这是保障服务正常使用的基础步骤。详细的入门指引请参考首次使用AI DataLake。

图2 AI DataLake使用流程图
点击放大

表2 AI DataLake使用流程
关键步骤	说明	详细操作链接
创建工作空间	首次使用AI DataLake，首先需要创建工作空间。工作空间是逻辑隔离的运行环境，您可以为不同项目或团队创建独立的工作空间，实现资源与权限的隔离。在创建工作空间时，绑定LakeFormation实例，将业务数据源接入AI DataLake，建立统一的数据访问通道。	了解工作空间
创建计算资源池	作业需要计算资源才能运行，因此需要通过创建计算资源池来为作业分配所需的计算资源。AI DataLake的资源池功能提供了CPU、GPU、NPU计算资源的统一管理与分配能力。计算资源池分为预留资源池和弹性资源，弹性资源无需提前创建。	了解计算资源池
选择计算引擎	引擎是计算处理的核心组件，负责执行数据处理与分析任务。不同的业务场景需要选择合适的引擎以获得最佳性能与成本效益。 AI DataLake提供多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink（公测期暂未开放Flink引擎）四大核心计算引擎，聚焦多模数据处理、异构算力混合调度，开放湖仓处理，构建新一代多模湖仓架构，促进Data+AI协同创新。	了解计算引擎
创建并配置端点	端点提供了访问AI DataLake服务的入口，通过端点可以连接计算引擎与计算资源，进行数据开发与查询。同时配置端点使用资源的最小保障配额（确保业务连续性）和最大配额（防止资源耗尽），有效控制端点资源弹性范围。	创建Aura引擎端点创建Ray引擎端点创建Spark引擎端点
作业开发	作业是数据处理与分析任务的执行单元，通过编写代码或配置逻辑，对数据进行转换、分析或机器学习训练。	作业开发