更新时间:2026-04-14 GMT+08:00
分享

首次使用AI DataLake

欢迎使用AI DataLake服务,本文为您介绍使用AI DataLake前需要完成的准备工作,包括从账号准备,到首次体验AI DataLake数据开发的全流程。

第一项:准备账号与权限

在开始使用AI DataLake前,您需完成华为云账号注册、实名认证及相关服务授权,这是保障服务正常使用的基础步骤。

表1 AI DataLake准备工作规划

阶段

准备工作

是否必选

说明

账号与权限

注册华为云账号

必选

在使用AI DataLake前,需完成华为云账号注册、实名认证及相关权限授权,这是保障服务正常使用的基础步骤。

开通AI DataLake服务并授权使用云服务资源

必选

您需要开通AI DataLake服务,才可以在AI DataLake服务中执行创建工作空间,开发作业等操作。

主账号(管理员)首次进入AI DataLake控制台时,会自动弹出“AI DataLake 云资源访问授权”页面,单击“立即授权”,授权允许AI DataLake服务代表用户访问其他云服务。

开通AI DataLake服务并授权使用云服务资源

创建IAM用户并授权使用AI DataLake

可选

  • 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用AI DataLake服务的其他功能。
  • 如果您是企业用户,需要对您所拥有的AI DataLake资源进行精细的权限管理,您可以在IAM控制台创建用户组,添加IAM用户,创建自定义策略并关联至用户组。

通过IAM授予使用AI DataLake的权限

第二项:了解AI DataLake服务使用流程

AI DataLake包含多个功能模块,覆盖工作空间创建、数据连接、创建资源池、选择引擎、创建端点、开发作业等多个功能模块。了解AI DataLake各个功能模块配合关系与服务使用流程,可以帮助您快速开始上手使用AI DataLake

只需简单的几步操作即可开始数据开发:创建工作空间、创建计算资源池、选择计算引擎、配置端点、开发作业。

了解更多AI DataLake产品功能请参考产品功能AI DataLake服务公测期间开放的功能清单请参考公测期间开放功能说明
图1 AI DataLake使用流程图
表2 AI DataLake使用流程

关键步骤

说明

详细操作链接

创建工作空间

首次使用AI DataLake,首先需要创建工作空间。工作空间是逻辑隔离的运行环境,您可以为不同项目或团队创建独立的工作空间,实现资源与权限的隔离。

在创建工作空间时,绑定LakeFormation实例,将业务数据源接入AI DataLake,建立统一的数据访问通道。

了解工作空间

创建计算资源池

作业需要计算资源才能运行,因此需要通过创建计算资源池来为作业分配所需的计算资源。AI DataLake的资源池功能提供了CPU、GPU、NPU计算资源的统一管理与分配能力。

了解计算资源池

选择计算引擎

引擎是计算处理的核心组件,负责执行数据处理与分析任务。不同的业务场景需要选择合适的引擎以获得最佳性能与成本效益。

AI DataLake提供多模数据引擎AuraAI计算引擎Ray批处理引擎Spark流处理引擎Flink四大核心计算引擎,聚焦多模数据处理、异构算力混合调度,开放湖仓处理,构建新一代多模湖仓架构,促进Data+AI协同创新。

了解AI DataLake计算引擎

创建并配置端点

端点提供了访问AI DataLake服务的入口,通过端点可以连接计算引擎与计算资源,进行数据开发与查询。

同时配置端点使用资源的最小保障配额(确保业务连续性)和最大配额(防止资源耗尽),有效控制端点资源弹性范围。

创建并配置端点

作业开发

作业是数据处理与分析任务的执行单元,通过编写代码或配置逻辑,对数据进行转换、分析或机器学习训练。

作业开发

第三项:进阶指导,从体验到实践

完成首次体验后,可根据自身需求深入学习AI DataLake的核心功能,逐步开展实战项目:

AI DataLake在服务公测期间,仅提供Aura引擎,更多引擎和功能持续开放中,敬请期待。

  • 零基础进阶:快速上手使用AI DataLake查询数据

    入门示例中介绍了在AI DataLake创建工作空间、计算资源、配置端点,然后在DataArts Studio作业开发页面提交一个单任务Shell或Pipeline类型的AI DataLake作业至Aura端点运行的操作流程。

  • 开发者进阶:快速使用多模数据引擎Aura分析智能驾驶数据

    通过aura_frame SDK接入Aura端点,在完成数据处理算子的注册后,调用算子依次完成图片解码、图片转Embedding,并查看数据处理结果。

相关文档