文档首页/ 智能数据湖 AIDataLake/ 用户指南/ 使用DataArts Studio开发AI DataLake作业
更新时间:2026-05-14 GMT+08:00
分享

使用DataArts Studio开发AI DataLake作业

AI DataLake完成引擎端点的配置后,您就已经具备了提交作业的必要条件:计算资源与引擎配置。

接下来将要进行作业开发模块完成数据查询、数据处理等任务。

AI DataLake公测期间支持的引擎:多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark。

表1 各引擎作业开发说明

引擎

作业开发方式

作业开发流程

多模数据引擎Aura

使用DataArts Studio完成作业开发

AI DataLake的快速入门中,以Aura Job为例介绍了完整的作业开发流程,了解更多请参见基于用户自定义镜像的多模数据处理

AI计算引擎Ray

使用API提交作业

AI DataLake的快速入门中,以Ray为例介绍了完整的作业开发流程,了解更多请参见基于Ray Data的数据处理

批处理引擎Spark

使用API提交作业

AI DataLake的快速入门中,以Spark Job为例介绍了完整的作业开发流程,了解更多请参见基于PySpark的数据处理

本节以Aura Job为例介绍使用DataArts Studio进行作业开发的操作流程。

作业开发前的准备工作

在DataArts Studio创建并开发作业

开发作业前,您可以通过图1了解DataArts Studio数据开发模块作业开发的基本流程。
图1 作业开发流程
  1. 新建作业:当前提供两种作业类型:批处理和实时处理,分别应用于批量数据处理和实时连接性数据处理,其中批处理作业支持Pipeline和单节点作业两种模式,具体请参见新建作业
  2. 开发作业:基于新建的作业,进行作业开发,您可以进行编排、配置节点。具体请参见开发Pipeline作业
  3. 调度作业:配置作业调度任务。具体请参见调度作业
    • 如果您的作业是批处理作业,您可以配置作业级别的调度任务,即以作业为一个整体进行调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置作业调度任务(批处理作业)
    • 如果您的作业是实时处理作业,您可以配置节点级别的调度任务,即每一个节点可以独立调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置节点调度任务(实时作业)
  4. 提交版本并解锁:作业调度配置完成后,您需要提交版本并解锁,提交版本并解锁后才能用于调度运行,便于其他开发者修改。具体请参见提交版本
  5. (可选)管理作业:作业开发完成后,您可以根据需要,进行作业管理。具体请参见(可选)管理作业
  6. 发布作业。企业模式下需要发布作业,具体请参见发布作业任务

相关文档