什么是AI DataLake
智能数据湖(AI DataLake)是华为云构建的企业级多模态智能数据分析与管理平台,为您提供构建AI时代数据基础设施的完整能力。提供多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink四大核心计算引擎,聚焦多模数据处理、异构算力混合调度,开放湖仓处理,构建新一代多模湖仓架构,促进Data+AI协同创新。
AI DataLake以工作空间为载体,采用数据、资源、引擎三层解耦架构实现灵活高效的企业级数据管理:
- 数据与引擎解耦:所有引擎共享同一份数据,通过多模数据管理平台统一治理数据资产,避免数据孤岛和数据冗余,确保数据一致性。
- 资源与引擎解耦:支持多引擎共用资源池,细粒度管理通算、智算资源,通过资源的灵活配置,提升资源利用率。
- 资源与数据解耦:数据跨智算与通算资源流通,灵活支撑交互式分析、多模分析、批处理、实时计算、AI计算等多样化数据业务场景。 图1 资源-数据-引擎
您只需在AI DataLake创建一个工作空间,即可开始资源管理和数据处理,无需关注底层基础设施的运维,快速构建企业级多模数据处理环境。
公测期间开放功能说明
AI DataLake 公测期间仅开放部分功能,已开放功能清单如表1所示。其他功能正在陆续开放中,具体请以控制台实际展示为准。
| 功能 | 公测期间支持情况 |
|---|---|
| 区域 | 华东二 |
| 引擎 | 多模数据引擎Aura |
| 计算资源规格 | 请参考产品规格 |
| 计费模式 |
|
| 端点类型 | Job端点 |
| 端点资源使用模式 |
|
| 数据开发 | 仅支持使用DataArts Studio及API形式的数据开发。 |
| 资源监控 | 预留资源池监控,包括以下指标:资源池CPU使用率、资源池内存使用率、资源池NPU使用率、资源池GPU使用率 |
视频简介
视频介绍什么是智能数据湖(AI DataLake)服务。
产品架构
AI DataLake是面向企业的新一代多模态智能数据分析与管理平台,图2介绍了AI Datalake的产品架构。
AI DataLake产品架构自下而上来看:
- 基于OBS对象存储,构建海量数据存储能力。通过Lakeformation实现统一治理,灵活满足企业级数据分析与AI业务需求。
- 在数据治理层,Lakeformation作为统一治理核心,提供元数据管理与权限控制能力。数据资产按层级组织分为Catalog、Database、Table、UDF、Dataset、Model等扩展对象。
- 工作空间作为核心管理单元,每个空间绑定一个Lakeformation数据目录实例,实现数据目录管理,同时隔离计算资源,提供轻量级作业开发。
- 在资源管理层,平台提供三种灵活的资源调配模式:预留资源池通过绑定预留计算资源保障业务稳定性,弹性资源可根据负载自动伸缩以提升资源利用率,混合资源调配则结合两者优势,兼具预留资源的稳定性与按需资源的灵活性,有效应对业务变化。
资源池支持配置最小保障配额(确保业务连续性)和最大配额(防止资源耗尽)。购买预留资源池或按需使用资源,灵活配置端点与资源池的绑定关系,并通过Min、Max控制资源弹性范围。
平台同时支持CPU、GPU、NPU类型实例,新增的异构算力,满足不同业务场景的差异化需求。
每个计算资源池支持独立配置和管理,一个工作空间可创建多个计算资源池,既提升了资源利用效率,也为大数据分析业务场景提供了资源调配的灵活性。
- 在计算引擎层,AI DataLake集成四大核心引擎:Aura支持多模态数据的分析场景,Ray专注于AI计算处理,Spark用于大规模批量数据处理,Flink提供高吞吐实时流处理能力,四大引擎赋能数据加工与模型训练推理生态。
- 在作业开发层,您可以通过Notebook进行交互式作业开发,支持Python、Scala等编程语言;同时提供SQL编辑器,满足实时交互查询与即席分析需求。支持与DataArts Studio交互,依托DataArts Studio的作业开发模块完成数据查询、数据处理、数据转换等任务。
AI DataLake服务公测期间,仅支持使用DataArts Studio提交作业,作业开发功能即将开放,敬请期待!
- 在资源管理层,平台提供三种灵活的资源调配模式:预留资源池通过绑定预留计算资源保障业务稳定性,弹性资源可根据负载自动伸缩以提升资源利用率,混合资源调配则结合两者优势,兼具预留资源的稳定性与按需资源的灵活性,有效应对业务变化。
- 在数据应用层,AI DataLake支持湖仓分析、交互式分析、数据加工、批量数据处理、多模数据分析等多种业务场景。
核心优势
本节介绍AI DataLake核心优势,更多产品优势请参考产品优势。
- 多引擎协同,灵活适配业务,弹性算力,按需调配资源
- 支持多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink,聚焦多模数据处理,灵活适配业务需求。(公测仅开放多模数据引擎Aura)
- 提供预留资源池、弹性资源、混合资源调配三种资源使用模式,按业务需求灵活选择。预留资源池保障核心业务稳定性,弹性资源根据负载自动伸缩提升资源利用率,混合模式兼顾性能与成本。
- 统一元数据管理,释放数据价值
LakeFormation统一治理数据资产,避免数据孤岛和数据冗余,确保数据一致性,多个业务部门共享数据,解决多任务调度场景因数据存盘导致数据效率低的问题。
- 新一代多模数据引擎Aura、AI计算引擎Ray,专为多模态数据处理而生
- 融合结构化表、非结构化文件(图像/音视频/文档)与向量数据,构建多模态统一湖仓。
- Aura引擎、Ray引擎原生支持AI计算,赋能多模分析、AI计算等多样化数据业务场景。
访问方式
当前提供了Web化的服务管理平台,即管理控制台和基于HTTPS请求的API(Application Programming Interface)管理方式。
- 控制台方式
AI DataLake支持通过管理控制台访问,创建工作空间,创建引擎端点后即可开发作业,在管理控制台完成数据开发。
快速上手使用AI DataLake
通过AI DataLake,您只需简单的几步操作即可开始数据开发:创建工作空间、创建计算资源池、选择计算引擎、配置端点、开发作业。
在开始使用AI DataLake前,您需完成华为云账号注册、实名认证及相关服务授权,这是保障服务正常使用的基础步骤。详细的入门指引请参考首次使用AI DataLake。
| 关键步骤 | 说明 | 详细操作链接 |
|---|---|---|
| 创建工作空间 | 首次使用AI DataLake,首先需要创建工作空间。工作空间是逻辑隔离的运行环境,您可以为不同项目或团队创建独立的工作空间,实现资源与权限的隔离。 在创建工作空间时,绑定LakeFormation实例,将业务数据源接入AI DataLake,建立统一的数据访问通道。 | |
| 创建计算资源池 | 作业需要计算资源才能运行,因此需要通过创建计算资源池来为作业分配所需的计算资源。AI DataLake的资源池功能提供了CPU、GPU、NPU计算资源的统一管理与分配能力。 | |
| 选择计算引擎 | 引擎是计算处理的核心组件,负责执行数据处理与分析任务。不同的业务场景需要选择合适的引擎以获得最佳性能与成本效益。 AI DataLake提供多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink四大核心计算引擎,聚焦多模数据处理、异构算力混合调度,开放湖仓处理,构建新一代多模湖仓架构,促进Data+AI协同创新。 | |
| 创建并配置端点 | 端点提供了访问AI DataLake服务的入口,通过端点可以连接计算引擎与计算资源,进行数据开发与查询。 同时配置端点使用资源的最小保障配额(确保业务连续性)和最大配额(防止资源耗尽),有效控制端点资源弹性范围。 | |
| 作业开发 | 作业是数据处理与分析任务的执行单元,通过编写代码或配置逻辑,对数据进行转换、分析或机器学习训练。 说明: AI DataLake服务公测期间,仅支持使用DataArts Studio提交作业,作业开发功能即将开放,敬请期待! |
