首次使用AI DataLake
欢迎使用AI DataLake服务,本文为您介绍使用AI DataLake前需要完成的准备工作,包括从账号准备,到首次体验AI DataLake数据开发的全流程。
第一项:准备账号与权限
在开始使用AI DataLake前,您需完成华为云账号注册、实名认证及相关服务授权,这是保障服务正常使用的基础步骤。
|
阶段 |
准备工作 |
是否必选 |
说明 |
|---|---|---|---|
|
账号与权限 |
注册华为云账号 |
必选 |
在使用AI DataLake前,需完成华为云账号注册、实名认证及相关权限授权,这是保障服务正常使用的基础步骤。 |
|
开通AI DataLake服务并授权使用云服务资源 |
必选 |
您需要开通AI DataLake服务,才可以在AI DataLake服务中执行创建工作空间,开发作业等操作。 主账号(管理员)首次进入AI DataLake控制台时,会自动弹出“AI DataLake 云资源访问授权”页面,单击“立即授权”,授权允许AI DataLake服务代表用户访问其他云服务。 |
|
|
创建IAM用户并授权使用AI DataLake |
可选 |
|
第二项:了解AI DataLake服务使用流程
AI DataLake包含多个功能模块,覆盖工作空间创建、数据连接、创建资源池、选择引擎、创建端点、开发作业等多个功能模块。了解AI DataLake各个功能模块配合关系与服务使用流程,可以帮助您快速开始上手使用AI DataLake。
只需简单的几步操作即可开始数据开发:创建工作空间、创建计算资源池、选择计算引擎、配置端点、开发作业。
|
关键步骤 |
说明 |
详细操作链接 |
|---|---|---|
|
创建工作空间 |
首次使用AI DataLake,首先需要创建工作空间。工作空间是逻辑隔离的运行环境,您可以为不同项目或团队创建独立的工作空间,实现资源与权限的隔离。 在创建工作空间时,绑定LakeFormation实例,将业务数据源接入AI DataLake,建立统一的数据访问通道。 |
|
|
创建计算资源池 |
作业需要计算资源才能运行,因此需要通过创建计算资源池来为作业分配所需的计算资源。AI DataLake的资源池功能提供了CPU、GPU、NPU计算资源的统一管理与分配能力。 |
|
|
选择计算引擎 |
引擎是计算处理的核心组件,负责执行数据处理与分析任务。不同的业务场景需要选择合适的引擎以获得最佳性能与成本效益。 AI DataLake提供多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink四大核心计算引擎,聚焦多模数据处理、异构算力混合调度,开放湖仓处理,构建新一代多模湖仓架构,促进Data+AI协同创新。 |
|
|
创建并配置端点 |
端点提供了访问AI DataLake服务的入口,通过端点可以连接计算引擎与计算资源,进行数据开发与查询。 同时配置端点使用资源的最小保障配额(确保业务连续性)和最大配额(防止资源耗尽),有效控制端点资源弹性范围。 |
|
|
作业开发 |
作业是数据处理与分析任务的执行单元,通过编写代码或配置逻辑,对数据进行转换、分析或机器学习训练。 |
第三项:进阶指导,从体验到实践
完成首次体验后,可根据自身需求深入学习AI DataLake的核心功能,逐步开展实战项目:
AI DataLake在服务公测期间,仅提供Aura引擎,更多引擎和功能持续开放中,敬请期待。
- 零基础进阶:快速上手使用AI DataLake查询数据
入门示例中介绍了在AI DataLake创建工作空间、计算资源、配置端点,然后在DataArts Studio作业开发页面提交一个单任务Shell或Pipeline类型的AI DataLake作业至Aura端点运行的操作流程。
- 开发者进阶:快速使用多模数据引擎Aura分析智能驾驶数据
通过aura_frame SDK接入Aura端点,在完成数据处理算子的注册后,调用算子依次完成图片解码、图片转Embedding,并查看数据处理结果。