更新时间:2026-05-22 GMT+08:00
分享

首次使用AI DataLake

欢迎使用AI DataLake服务,本文为您介绍使用AI DataLake前需要完成的准备工作,包括从账号准备,到首次体验AI DataLake数据开发的全流程。

第一项:准备账号与权限

在开始使用AI DataLake前,您需完成华为云账号注册、实名认证及相关服务授权,这是保障服务正常使用的基础步骤。

表1 AI DataLake准备工作规划

阶段

准备工作

是否必选

说明

账号与权限

注册华为云账号

必选

在使用AI DataLake前,需完成华为云账号注册、实名认证及相关权限授权,这是保障服务正常使用的基础步骤。

开通AI DataLake服务并授权使用云服务资源

必选

您需要开通AI DataLake服务,才可以在AI DataLake服务中执行创建工作空间,开发作业等操作。

主账号(管理员)首次进入AI DataLake控制台时,会自动弹出“AI DataLake云资源访问授权”页面,单击“立即授权”,授权允许AI DataLake服务代表用户访问其他云服务。

开通AI DataLake服务并授权使用云服务资源

创建IAM用户并授权使用AI DataLake

可选

  • 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用AI DataLake服务的其他功能。
  • 如果您是企业用户,需要对您所拥有的AI DataLake资源进行精细的权限管理,您可以在IAM控制台创建用户组,添加IAM用户,创建自定义策略并关联至用户组。

通过IAM授予使用AI DataLake的权限

第二项:了解AI DataLake服务使用流程

AI DataLake包含多个功能模块,覆盖工作空间创建、数据连接、创建资源池、选择引擎、创建端点、开发作业等多个功能模块。了解AI DataLake各个功能模块配合关系与服务使用流程,可以帮助您快速开始上手使用AI DataLake

只需简单的几步操作即可开始数据开发:创建工作空间、创建计算资源池、选择计算引擎、配置端点、开发作业。

了解更多AI DataLake产品功能请参考产品功能AI DataLake服务公测期间开放的功能清单请参考公测期间开放功能说明
图1 AI DataLake使用流程图
表2 AI DataLake使用流程

关键步骤

说明

详细操作链接

创建工作空间

首次使用AI DataLake,首先需要创建工作空间。工作空间是逻辑隔离的运行环境,您可以为不同项目或团队创建独立的工作空间,实现资源与权限的隔离。

在创建工作空间时,绑定LakeFormation实例,将业务数据源接入AI DataLake,建立统一的数据访问通道。

了解工作空间

创建计算资源池

作业需要计算资源才能运行,因此需要通过创建计算资源池来为作业分配所需的计算资源。AI DataLake的资源池功能提供了CPU、GPU、NPU计算资源的统一管理与分配能力。

了解计算资源池

选择计算引擎

引擎是计算处理的核心组件,负责执行数据处理与分析任务。不同的业务场景需要选择合适的引擎以获得最佳性能与成本效益。

AI DataLake提供多模数据引擎AuraAI计算引擎Ray批处理引擎Spark流处理引擎Flink四大核心计算引擎,聚焦多模数据处理、异构算力混合调度,开放湖仓处理,构建新一代多模湖仓架构,促进Data+AI协同创新。

了解AI DataLake计算引擎

创建并配置端点

端点提供了访问AI DataLake服务的入口,通过端点可以连接计算引擎与计算资源,进行数据开发与查询。

同时配置端点使用资源的最小保障配额(确保业务连续性)和最大配额(防止资源耗尽),有效控制端点资源弹性范围。

作业开发

作业是数据处理与分析任务的执行单元,通过编写代码或配置逻辑,对数据进行转换、分析或机器学习训练。

作业开发

第三项:进阶指导,从体验到实践

完成首次体验后,可根据自身需求深入学习AI DataLake的核心功能,逐步开展实战项目:

AI DataLake在服务公测期间提供Aura引擎,Ray引擎和Spark引擎,更多引擎和功能持续开放中,敬请期待。

  • 零基础进阶:快速上手使用AI DataLake查询数据

    入门示例中介绍了在AI DataLake创建工作空间、计算资源、配置端点,然后在DataArts Studio作业开发页面提交一个单任务Shell或Pipeline类型的AI DataLake作业至Aura端点运行的操作流程。

  • 开发者进阶:
    • 基于Aura DataFrame的多模数据处理

      本示例通过Aura DataFrame SDK接入Aura端点,在完成数据处理算子的注册后,调用算子依次完成图片解码、图片转Embedding,并查看数据处理结果。

    • 基于Ray Data的数据处理

      本示例以通过创建计算资源池、配置Ray类型的端点、连接数据、使用API提交作业为例,演示通过AI DataLake分析数据的操作指导。

    • 基于PySpark的数据处理

      本示例以通过创建Spark引擎端点、连接数据、使用API提交作业为例,演示通过AI DataLake分析数据的操作指导。

相关文档