首次使用AI DataLake

欢迎使用AI DataLake服务，本文为您介绍使用AI DataLake前需要完成的准备工作，包括从账号准备，到首次体验AI DataLake数据开发的全流程。

第一项：准备账号与权限

在开始使用AI DataLake前，您需完成华为云账号注册、实名认证及相关服务授权，这是保障服务正常使用的基础步骤。

表1 AI DataLake准备工作规划
阶段	准备工作	是否必选	说明
账号与权限	注册华为云账号	必选	在使用AI DataLake前，需完成华为云账号注册、实名认证及相关权限授权，这是保障服务正常使用的基础步骤。注册华为账号并开通华为云进行实名认证
	开通AI DataLake服务并授权使用云服务资源	必选	您需要开通AI DataLake服务，才可以在AI DataLake服务中执行创建工作空间，开发作业等操作。主账号（管理员）首次进入AI DataLake控制台时，会自动弹出“AI DataLake云资源访问授权”页面，单击“立即授权”，授权允许AI DataLake服务代表用户访问其他云服务。开通AI DataLake服务并授权使用云服务资源
	创建IAM用户并授权使用AI DataLake	可选	如果华为云账号已经能满足您的要求，不需要创建独立的IAM用户，您可以跳过本章节，不影响您使用AI DataLake服务的其他功能。如果您是企业用户，需要对您所拥有的AI DataLake资源进行精细的权限管理，您可以在IAM控制台创建用户组，添加IAM用户，创建自定义策略并关联至用户组。通过IAM授予使用AI DataLake的权限

第二项：了解AI DataLake服务使用流程

AI DataLake包含多个功能模块，覆盖工作空间创建、数据连接、创建资源池、选择引擎、创建端点、开发作业等多个功能模块。了解AI DataLake各个功能模块配合关系与服务使用流程，可以帮助您快速开始上手使用AI DataLake。

只需简单的几步操作即可开始数据开发：创建工作空间、创建计算资源池、选择计算引擎、配置端点、开发作业。

了解更多AI DataLake产品功能请参考产品功能。AI DataLake服务公测期间开放的功能清单请参考公测期间开放功能说明。

图1 AI DataLake使用流程图
点击放大

表2 AI DataLake使用流程
关键步骤	说明	详细操作链接
创建工作空间	首次使用AI DataLake，首先需要创建工作空间。工作空间是逻辑隔离的运行环境，您可以为不同项目或团队创建独立的工作空间，实现资源与权限的隔离。在创建工作空间时，绑定LakeFormation实例，将业务数据源接入AI DataLake，建立统一的数据访问通道。	了解工作空间
创建计算资源池	作业需要计算资源才能运行，因此需要通过创建计算资源池来为作业分配所需的计算资源。AI DataLake的资源池功能提供了CPU、GPU、NPU计算资源的统一管理与分配能力。	了解计算资源池
选择计算引擎	引擎是计算处理的核心组件，负责执行数据处理与分析任务。不同的业务场景需要选择合适的引擎以获得最佳性能与成本效益。 AI DataLake提供多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink四大核心计算引擎，聚焦多模数据处理、异构算力混合调度，开放湖仓处理，构建新一代多模湖仓架构，促进Data+AI协同创新。	了解AI DataLake计算引擎
创建并配置端点	端点提供了访问AI DataLake服务的入口，通过端点可以连接计算引擎与计算资源，进行数据开发与查询。同时配置端点使用资源的最小保障配额（确保业务连续性）和最大配额（防止资源耗尽），有效控制端点资源弹性范围。	创建Aura引擎端点创建Ray引擎端点创建Spark引擎端点
作业开发	作业是数据处理与分析任务的执行单元，通过编写代码或配置逻辑，对数据进行转换、分析或机器学习训练。	作业开发

第三项：进阶指导，从体验到实践

完成首次体验后，可根据自身需求深入学习AI DataLake的核心功能，逐步开展实战项目：

AI DataLake在服务公测期间提供Aura引擎，Ray引擎和Spark引擎，更多引擎和功能持续开放中，敬请期待。

零基础进阶：快速上手使用AI DataLake查询数据
入门示例中介绍了在AI DataLake创建工作空间、计算资源、配置端点，然后在DataArts Studio作业开发页面提交一个单任务Shell或Pipeline类型的AI DataLake作业至Aura端点运行的操作流程。
开发者进阶：
- 基于Aura DataFrame的多模数据处理
  本示例通过Aura DataFrame SDK接入Aura端点，在完成数据处理算子的注册后，调用算子依次完成图片解码、图片转Embedding，并查看数据处理结果。
- 基于RayCluster Data的数据处理
  本示例以通过创建计算资源池、配置Ray类型的端点、连接数据、使用API提交作业为例，演示通过AI DataLake分析数据的操作指导。
- 基于RayJob Data的数据处理
  本示例以通过创建计算资源池、创建RayJob类型的端点、连接数据、使用API提交作业为例，演示通过AI DataLake分析数据的操作指导。
- 基于PySpark的数据处理
  本示例以通过创建Spark引擎端点、连接数据、使用API提交作业为例，演示通过AI DataLake分析数据的操作指导。