DLI作业开发流程

本节内容为您介绍DLI作业开发流程。

创建IAM用户并授权使用DLI

如果您是企业用户，并计划使用IAM对您所拥有的DLI资源进行精细的权限管理，请创建IAM用户并授权使用DLI。具体操作请参考创建IAM用户并授权使用DLI。
首次使用DLI您需要根据控制台的引导更新DLI委托，用于将操作权限委托给DLI服务，让DLI服务以您的身份使用其他云服务，代替您进行一些资源运维工作。该委托包含获取IAM用户相关信息、跨源场景访问和使用VPC、子网、路由、对等连接的权限、作业执行失败需要通过SMN发送通知消息的权限。
详细委托包含的权限请参考配置DLI云服务委托权限。

创建执行作业所需的计算资源和元数据

使用DLI提交作业前，您需要先创建弹性资源池，并在弹性资源池中创建队列，为提交作业准备所需的计算资源。请参考DLI弹性资源池与队列简介创建弹性资源池并添加队列。
您还可以通过自定义镜像增强DLI的计算环境，通过下载DLI提供的基础镜像再按需制作自定义镜像，将作业运行需要的依赖（文件、jar包或者软件）、私有能力等内置到自定义镜像中，可以改变Spark作业和Flink作业的容器运行环境，增强作业的功能、性能。

例如，在自定义镜像中加入机器学习相关的Python包或者C库，可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境。
DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。

Flink支持动态数据类型，可以在运行时定义数据结构，不需要事先定义元数据。
- 定义您的数据结构，包括数据目录、数据库、表。请参考创建数据目录、数据库和表。
- 创建必要的存储桶来存储作业运行过程中产生的临时数据：作业日志、作业结果等。请参考配置DLI作业桶。
- 配置元数据的访问权限。请参考在DLI控制台配置数据库权限、在DLI控制台配置表权限。

DLI数据导入指引

DLI支持在不迁移数据的情况下，直接对OBS中存储的数据进行查询分析，您只需要将数据上传OBS即可使用DLI进行数据分析。
当需要将来自不同源的数据进行集中存储和处理时，迁移数据至DLI可以提供一个统一的数据平台。
您可以参考使用CDM迁移数据至DLI迁移数据至DLI后再提交作业。
如果业务需求需要实时访问和处理来自不同数据源的数据，跨源访问可以减少数据的复制和延迟。
跨源访问的必要条件包括“DLI与数据源网络连通”、“DLI可获取数据源的访问凭证”：
- DLI与数据源网络连通：您可以参考配置DLI与数据源网络连通（增强型跨源连接）配置DLI与数据源的网络连通。
- 管理数据源的凭证：
  - 您可以使用DLI提供的跨源认证功能管理访问指定数据源的认证信息。
    适用范围：SQL作业、Flink 1.12作业场景。具体操作请参考使用DLI的跨源认证管理数据源访问凭证。
  - 您还可以使用DEW管理数据源的访问凭证，并通过“自定义委托”方式授予DLI访问DEW服务的权限。
    适用范围：Spark 3.3.1及以上版本、Flink 1.15及以上版本。
    
    具体操作请参考使用DEW管理数据源访问凭证和配置DLI访问其他云服务的委托权限。

使用DLI提交作业

DLI提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务，支持多种作业类型以满足不同的数据处理需求。

表1 DLI支持的作业类型
作业类型	说明	适用场景
SQL作业	适用于使用标准SQL语句进行查询的场景。通常用于结构化数据的查询和分析。详细操作请参考创建并提交SQL作业。	适用于数据仓库查询、报表生成、OLAP（在线分析处理）等场景。
Flink作业	专为实时数据流处理设计，适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。 Flink OpenSource作业：DLI提供了标准的连接器（connectors）和丰富的API，便于快速与其他数据系统的集成。详细操作请参考创建Flink OpenSource SQL作业。 Flink Jar作业：允许用户提交编译为Jar包的Flink作业，提供了更大的灵活性和自定义能力。适合需要自定义函数、UDF（用户定义函数）或特定库集成的复杂数据处理场景。可以利用Flink的生态系统，实现高级流处理逻辑和状态管理。详细操作请参考创建Flink Jar作业。	适用于实时数据监控、实时推荐系统等需要快速响应的场景。 Flink Jar作业适用于需要自定义流处理逻辑、复杂的状态管理或特定库集成的数据分析场景。
Spark作业	可通过交互式会话（session）和批处理（batch）方式提交计算任务。通过在DLI提供的弹性资源池队列上提交作业，简化了资源管理和作业调度。支持多种数据源和格式，提供了丰富的数据处理能力，包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。	适用于大规模数据处理和分析，如机器学习训练、日志分析、大规模数据挖掘等场景。

管理Jar作业的程序包
 DLI允许用户提交编译为Jar包的Flink或Spark作业，Jar包中包含了Jar作业执行所需的代码和依赖信息，用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。通过DLI管理控制台可以管理作业所需的程序包。

在提交Spark Jar和Flink Jar类型的作业前，需要将程序包上传至OBS，然后在DLI服务中创建程序包，并将程序包与数据和作业参数一起提交以运行作业。管理Jar作业程序包。

Spark3.3.1及以上版本、Flink1.15及以上版本在创建Jar作业时支持直接配置OBS中的程序包，不支持读取DLI程序包。

使用CES监控DLI服务

您可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。

例如监控DLI队列资源使用量和作业的运行情况。了解更多DLI支持的监控指标请参考使用CES监控DLI服务。

使用CTS审计DLI服务

通过云审计服务，您可以记录与DLI服务相关的操作事件，便于日后的查询、审计和回溯。了解更多审计支持列表请参考使用CTS审计DLI服务。

下一篇：准备工作

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消