DLI作业开发流程
本节内容为您介绍DLI作业开发流程。
创建IAM用户并授权使用DLI
- 如果您是企业用户,并计划使用IAM对您所拥有的DLI资源进行精细的权限管理,请创建IAM用户并授权使用DLI。具体操作请参考创建IAM用户并授权使用DLI。
- 首次使用DLI您需要根据控制台的引导更新DLI委托,用于将操作权限委托给DLI服务,让DLI服务以您的身份使用其他云服务,代替您进行一些资源运维工作。该委托包含获取IAM用户相关信息、跨源场景访问和使用VPC、子网、路由、对等连接的权限、作业执行失败需要通过SMN发送通知消息的权限。
详细委托包含的权限请参考配置DLI云服务委托权限。
创建执行作业所需的计算资源和元数据
- 使用DLI提交作业前,您需要先创建弹性资源池,并在弹性资源池中创建队列,为提交作业准备所需的计算资源。请参考DLI弹性资源池与队列简介创建弹性资源池并添加队列。
您还可以通过自定义镜像增强DLI的计算环境,通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,可以改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。
例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境。
- DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。
Flink支持动态数据类型,可以在运行时定义数据结构,不需要事先定义元数据。
- 定义您的数据结构,包括数据目录、数据库、表。请参考创建数据库和表。
- 创建必要的存储桶来存储作业运行过程中产生的临时数据:作业日志、作业结果等。请参考配置DLI作业桶。
- 配置元数据的访问权限。请参考在DLI控制台配置数据库权限、在DLI控制台配置表权限。
DLI数据导入指引
- DLI支持在不迁移数据的情况下,直接对OBS中存储的数据进行查询分析,您只需要将数据上传OBS即可使用DLI进行数据分析。
上传数据至OBS请参考《对象存储用户指南》。
- 当需要将来自不同源的数据进行集中存储和处理时,迁移数据至DLI可以提供一个统一的数据平台。
您可以参考使用CDM迁移数据至DLI迁移数据至DLI后再提交作业。
- 如果业务需求需要实时访问和处理来自不同数据源的数据,跨源访问可以减少数据的复制和延迟。
跨源访问的必要条件包括“DLI与数据源网络连通”、“DLI可获取数据源的访问凭证”:
- DLI与数据源网络连通:您可以参考配置DLI与数据源网络连通(增强型跨源连接)配置DLI与数据源的网络连通。
- 管理数据源的凭证:
- 您可以使用DLI提供的跨源认证功能管理访问指定数据源的认证信息。
适用范围:SQL作业、Flink 1.12作业场景。具体操作请参考使用DLI的跨源认证管理数据源访问凭证。
- 您还可以使用DEW管理数据源的访问凭证,并通过“自定义委托”方式授予DLI访问DEW服务的权限。
适用范围:Spark 3.3.1及以上版本、Flink 1.15及以上版本。具体操作请参考使用DEW管理数据源访问凭证和配置DLI访问其他云服务的委托权限。
- 您可以使用DLI提供的跨源认证功能管理访问指定数据源的认证信息。
使用DLI提交作业
- DLI提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,支持多种作业类型以满足不同的数据处理需求。
表1 DLI支持的作业类型 作业类型
说明
适用场景
SQL作业
适用于使用标准SQL语句进行查询的场景。通常用于结构化数据的查询和分析。
详细操作请参考创建并提交SQL作业。
适用于数据仓库查询、报表生成、OLAP(在线分析处理)等场景。
Flink作业
专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。
- Flink OpenSource作业:DLI提供了标准的连接器(connectors)和丰富的API,便于快速与其他数据系统的集成。详细操作请参考创建Flink OpenSource SQL作业。
- Flink Jar作业:允许用户提交编译为Jar包的Flink作业,提供了更大的灵活性和自定义能力。
适合需要自定义函数、UDF(用户定义函数)或特定库集成的复杂数据处理场景。可以利用Flink的生态系统,实现高级流处理逻辑和状态管理。详细操作请参考创建Flink Jar作业。
适用于实时数据监控、实时推荐系统等需要快速响应的场景。
Flink Jar作业适用于需要自定义流处理逻辑、复杂的状态管理或特定库集成的数据分析场景。
Spark作业
可通过交互式会话(session)和批处理(batch)方式提交计算任务。通过在DLI提供的弹性资源池队列上提交作业,简化了资源管理和作业调度。
支持多种数据源和格式,提供了丰富的数据处理能力,包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。
适用于大规模数据处理和分析,如机器学习训练、日志分析、大规模数据挖掘等场景。
- 管理Jar作业的程序包
DLI允许用户提交编译为Jar包的Flink或Spark作业,Jar包中包含了Jar作业执行所需的代码和依赖信息,用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。通过DLI管理控制台可以管理作业所需的呈现包。
在提交Spark Jar和Flink Jar类型的作业前,需要将程序包上传至OBS,然后在DLI服务中创建程序包,并将程序包与数据和作业参数一起提交以运行作业。管理Jar作业程序包。
Spark3.3.1及以上版本、Flink1.15及以上版本在创建Jar作业时支持直接配置OBS中的程序包,不支持读取DLI程序包。
使用CES监控DLI服务
您可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。
例如监控DLI队列资源使用量和作业的运行情况。了解更多DLI支持的监控指标请参考使用CES监控DLI服务。
使用CTS审计DLI服务
通过云审计服务,您可以记录与DLI服务相关的操作事件,便于日后的查询、审计和回溯。了解更多审计支持列表请参考使用CTS审计DLI服务。