使用DataArts Studio开发AI DataLake作业
在AI DataLake完成引擎端点的配置后,您就已经具备了提交作业的必要条件:计算资源与引擎配置。
接下来将要进行作业开发模块完成数据查询、数据处理等任务。
AI DataLake公测期间支持的引擎:多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark。
| 引擎 | 作业开发方式 | 作业开发流程 |
|---|---|---|
| 多模数据引擎Aura | 使用DataArts Studio完成作业开发 | 在AI DataLake的快速入门中,以Aura Job为例介绍了完整的作业开发流程,了解更多请参见基于用户自定义镜像的多模数据处理。 |
| AI计算引擎Ray | 使用API提交作业 | 在AI DataLake的快速入门中,以Ray为例介绍了完整的作业开发流程,了解更多请参见基于Ray Data的数据处理。 |
| 批处理引擎Spark | 使用API提交作业 | 在AI DataLake的快速入门中,以Spark Job为例介绍了完整的作业开发流程,了解更多请参见基于PySpark的数据处理。 |
本节以Aura Job为例介绍使用DataArts Studio进行作业开发的操作流程。
作业开发前的准备工作
在DataArts Studio创建并开发作业
- 新建作业:当前提供两种作业类型:批处理和实时处理,分别应用于批量数据处理和实时连接性数据处理,其中批处理作业支持Pipeline和单节点作业两种模式,具体请参见新建作业。
- 开发作业:基于新建的作业,进行作业开发,您可以进行编排、配置节点。具体请参见开发Pipeline作业。
- 调度作业:配置作业调度任务。具体请参见调度作业。
- 如果您的作业是批处理作业,您可以配置作业级别的调度任务,即以作业为一个整体进行调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置作业调度任务(批处理作业)。
- 如果您的作业是实时处理作业,您可以配置节点级别的调度任务,即每一个节点可以独立调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置节点调度任务(实时作业)。
- 提交版本并解锁:作业调度配置完成后,您需要提交版本并解锁,提交版本并解锁后才能用于调度运行,便于其他开发者修改。具体请参见提交版本。
- (可选)管理作业:作业开发完成后,您可以根据需要,进行作业管理。具体请参见(可选)管理作业。
- 发布作业。企业模式下需要发布作业,具体请参见发布作业任务。
