更新时间:2026-04-16 GMT+08:00
分享

什么是AI DataLake

智能数据湖(AI DataLake)是华为云构建的企业级多模态智能数据分析与管理平台,为您提供构建AI时代数据基础设施的完整能力。提供多模数据引擎AuraAI计算引擎Ray批处理引擎Spark流处理引擎Flink四大核心计算引擎,聚焦多模数据处理、异构算力混合调度,开放湖仓处理,构建新一代多模湖仓架构,促进Data+AI协同创新。

AI DataLake以工作空间为载体,采用数据、资源、引擎三层解耦架构实现灵活高效的企业级数据管理:

  • 数据与引擎解耦所有引擎共享同一份数据,通过多模数据管理平台统一治理数据资产,避免数据孤岛和数据冗余,确保数据一致性。
  • 资源与引擎解耦支持多引擎共用资源池,细粒度管理通算、智算资源,通过资源的灵活配置,提升资源利用率。
  • 资源与数据解耦:数据跨智算与通算资源流通,灵活支撑交互式分析、多模分析、批处理、实时计算、AI计算等多样化数据业务场景。
    图1 资源-数据-引擎

您只需在AI DataLake创建一个工作空间,即可开始资源管理和数据处理,无需关注底层基础设施的运维,快速构建企业级多模数据处理环境。

公测期间开放功能说明

AI DataLake 公测期间仅开放部分功能,已开放功能清单如表1所示。其他功能正在陆续开放中,具体请以控制台实际展示为准。

表1 AI DataLake公测期间开放功能说明

功能

公测期间支持情况

区域

华东二

引擎

多模数据引擎Aura

计算资源规格

请参考产品规格

计费模式

  • 预留资源池:按需计费
  • 弹性资源:按需计费

端点类型

Job端点

端点资源使用模式

  • 预留模式:独享性能,成本最优。预留资源,单价最低,确保业务基线稳定。适用于负载稳定业务场景。
  • 混合模式:基线保障,自动扩容。优先消耗预留资源,高峰期自动触发弹性补位。适用于有规律波动的业务。

数据开发

仅支持使用DataArts Studio及API形式的数据开发。

资源监控

预留资源池监控,包括以下指标:资源池CPU使用率、资源池内存使用率、资源池NPU使用率、资源池GPU使用率

视频简介

视频介绍什么是智能数据湖(AI DataLake)服务。

产品架构

AI DataLake是面向企业的新一代多模态智能数据分析与管理平台,图2介绍了AI Datalake的产品架构。

图2 AI DataLake架构图

AI DataLake产品架构自下而上来看:

  • 基于OBS对象存储,构建海量数据存储能力。通过Lakeformation实现统一治理,灵活满足企业级数据分析与AI业务需求。
  • 在数据治理层,Lakeformation作为统一治理核心,提供元数据管理与权限控制能力。数据资产按层级组织分为Catalog、Database、Table、UDF、Dataset、Model等扩展对象。
  • 工作空间作为核心管理单元,每个空间绑定一个Lakeformation数据目录实例,实现数据目录管理,同时隔离计算资源,提供轻量级作业开发。
    • 在资源管理层,平台提供三种灵活的资源调配模式:预留资源池通过绑定预留计算资源保障业务稳定性,弹性资源可根据负载自动伸缩以提升资源利用率,混合资源调配则结合两者优势,兼具预留资源的稳定性与按需资源的灵活性,有效应对业务变化。

      资源池支持配置最小保障配额(确保业务连续性)和最大配额(防止资源耗尽)。购买预留资源池或按需使用资源,灵活配置端点与资源池的绑定关系,并通过Min、Max控制资源弹性范围。

      平台同时支持CPU、GPU、NPU类型实例,新增的异构算力,满足不同业务场景的差异化需求。

      每个计算资源池支持独立配置和管理,一个工作空间可创建多个计算资源池,既提升了资源利用效率,也为大数据分析业务场景提供了资源调配的灵活性。

    • 在计算引擎层,AI DataLake集成四大核心引擎:Aura支持多模态数据的分析场景,Ray专注于AI计算处理,Spark用于大规模批量数据处理,Flink提供高吞吐实时流处理能力,四大引擎赋能数据加工与模型训练推理生态。
    • 在作业开发层,您可以通过Notebook进行交互式作业开发,支持Python、Scala等编程语言;同时提供SQL编辑器,满足实时交互查询与即席分析需求。支持与DataArts Studio交互,依托DataArts Studio的作业开发模块完成数据查询、数据处理、数据转换等任务。

      AI DataLake服务公测期间,仅支持使用DataArts Studio提交作业,作业开发功能即将开放,敬请期待!

  • 在数据应用层,AI DataLake支持湖仓分析、交互式分析、数据加工、批量数据处理、多模数据分析等多种业务场景。

核心优势

本节介绍AI DataLake核心优势,更多产品优势请参考产品优势

  • 多引擎协同,灵活适配业务,弹性算力,按需调配资源
    • 支持多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink,聚焦多模数据处理,灵活适配业务需求。(公测仅开放多模数据引擎Aura)
    • 提供预留资源池、弹性资源、混合资源调配三种资源使用模式,按业务需求灵活选择。预留资源池保障核心业务稳定性,弹性资源根据负载自动伸缩提升资源利用率,混合模式兼顾性能与成本。
  • 统一元数据管理,释放数据价值

    LakeFormation统一治理数据资产,避免数据孤岛和数据冗余,确保数据一致性,多个业务部门共享数据,解决多任务调度场景因数据存盘导致数据效率低的问题。

  • 新一代多模数据引擎AuraAI计算引擎Ray,专为多模态数据处理而生
    • 融合结构化表、非结构化文件(图像/音视频/文档)与向量数据,构建多模态统一湖仓。
    • Aura引擎、Ray引擎原生支持AI计算,赋能多模分析、AI计算等多样化数据业务场景。

访问方式

当前提供了Web化的服务管理平台,即管理控制台和基于HTTPS请求的API(Application Programming Interface)管理方式。

  • 控制台方式

    AI DataLake支持通过管理控制台访问,创建工作空间,创建引擎端点后即可开发作业,在管理控制台完成数据开发。

快速上手使用AI DataLake

通过AI DataLake,您只需简单的几步操作即可开始数据开发:创建工作空间、创建计算资源池、选择计算引擎、配置端点、开发作业。

在开始使用AI DataLake前,您需完成华为云账号注册、实名认证及相关服务授权,这是保障服务正常使用的基础步骤。详细的入门指引请参考首次使用AI DataLake

图3 AI DataLake使用流程图
表2 AI DataLake使用流程

关键步骤

说明

详细操作链接

创建工作空间

首次使用AI DataLake,首先需要创建工作空间。工作空间是逻辑隔离的运行环境,您可以为不同项目或团队创建独立的工作空间,实现资源与权限的隔离。

在创建工作空间时,绑定LakeFormation实例,将业务数据源接入AI DataLake,建立统一的数据访问通道。

了解工作空间

创建计算资源池

作业需要计算资源才能运行,因此需要通过创建计算资源池来为作业分配所需的计算资源。AI DataLake的资源池功能提供了CPU、GPU、NPU计算资源的统一管理与分配能力。

了解计算资源池

选择计算引擎

引擎是计算处理的核心组件,负责执行数据处理与分析任务。不同的业务场景需要选择合适的引擎以获得最佳性能与成本效益。

AI DataLake提供多模数据引擎AuraAI计算引擎Ray批处理引擎Spark流处理引擎Flink四大核心计算引擎,聚焦多模数据处理、异构算力混合调度,开放湖仓处理,构建新一代多模湖仓架构,促进Data+AI协同创新。

了解计算引擎

创建并配置端点

端点提供了访问AI DataLake服务的入口,通过端点可以连接计算引擎与计算资源,进行数据开发与查询。

同时配置端点使用资源的最小保障配额(确保业务连续性)和最大配额(防止资源耗尽),有效控制端点资源弹性范围。

创建并配置端点

作业开发

作业是数据处理与分析任务的执行单元,通过编写代码或配置逻辑,对数据进行转换、分析或机器学习训练。

说明:

AI DataLake服务公测期间,仅支持使用DataArts Studio提交作业,作业开发功能即将开放,敬请期待!

作业开发

相关文档