文档首页/ 数据湖探索 DLI/ 用户指南/ DLI作业开发流程
更新时间:2024-11-07 GMT+08:00

DLI作业开发流程

本节内容为您介绍DLI作业开发流程。

创建IAM用户并授权使用DLI

  • 如果您是企业用户,并计划使用IAM对您所拥有的DLI资源进行精细的权限管理,请创建IAM用户并授权使用DLI。具体操作请参考创建IAM用户并授权使用DLI
  • 首次使用DLI您需要根据控制台的引导更新DLI委托,用于将操作权限委托给DLI服务,让DLI服务以您的身份使用其他云服务,代替您进行一些资源运维工作。该委托包含获取IAM用户相关信息、跨源场景访问和使用VPC、子网、路由、对等连接的权限、作业执行失败需要通过SMN发送通知消息的权限。

    详细委托包含的权限请参考配置DLI云服务委托权限

创建执行作业所需的计算资源和元数据

  • 使用DLI提交作业前,您需要先创建弹性资源池,并在弹性资源池中创建队列,为提交作业准备所需的计算资源。请参考DLI弹性资源池与队列简介创建弹性资源池并添加队列。

    您还可以通过自定义镜像增强DLI的计算环境,通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,可以改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。

    例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境

  • DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。

    Flink支持动态数据类型,可以在运行时定义数据结构,不需要事先定义元数据。

DLI数据导入指引

  • DLI支持在不迁移数据的情况下,直接对OBS中存储的数据进行查询分析,您只需要将数据上传OBS即可使用DLI进行数据分析。
  • 当需要将来自不同源的数据进行集中存储和处理时,迁移数据至DLI可以提供一个统一的数据平台。

    您可以参考使用CDM迁移数据至DLI迁移数据至DLI后再提交作业。

  • 如果业务需求需要实时访问和处理来自不同数据源的数据,跨源访问可以减少数据的复制和延迟。

    跨源访问的必要条件包括“DLI与数据源网络连通”、“DLI可获取数据源的访问凭证”:

使用DLI提交作业

  • DLI提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,支持多种作业类型以满足不同的数据处理需求。
    表1 DLI支持的作业类型

    作业类型

    说明

    适用场景

    SQL作业

    适用于使用标准SQL语句进行查询的场景。通常用于结构化数据的查询和分析。

    详细操作请参考创建并提交SQL作业

    适用于数据仓库查询、报表生成、OLAP(在线分析处理)等场景。

    Flink作业

    专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。

    • Flink OpenSource作业:DLI提供了标准的连接器(connectors)和丰富的API,便于快速与其他数据系统的集成。详细操作请参考创建Flink OpenSource SQL作业
    • Flink Jar作业:允许用户提交编译为Jar包的Flink作业,提供了更大的灵活性和自定义能力。

      适合需要自定义函数、UDF(用户定义函数)或特定库集成的复杂数据处理场景。可以利用Flink的生态系统,实现高级流处理逻辑和状态管理。详细操作请参考创建Flink Jar作业

    适用于实时数据监控、实时推荐系统等需要快速响应的场景。

    Flink Jar作业适用于需要自定义流处理逻辑、复杂的状态管理或特定库集成的数据分析场景。

    Spark作业

    可通过交互式会话(session)和批处理(batch)方式提交计算任务。通过在DLI提供的弹性资源池队列上提交作业,简化了资源管理和作业调度。

    支持多种数据源和格式,提供了丰富的数据处理能力,包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业

    适用于大规模数据处理和分析,如机器学习训练、日志分析、大规模数据挖掘等场景。

  • 管理Jar作业的程序包

    DLI允许用户提交编译为Jar包的Flink或Spark作业,Jar包中包含了Jar作业执行所需的代码和依赖信息,用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。通过DLI管理控制台可以管理作业所需的呈现包。

    在提交Spark Jar和Flink Jar类型的作业前,需要将程序包上传至OBS,然后在DLI服务中创建程序包,并将程序包与数据和作业参数一起提交以运行作业。管理Jar作业程序包

    Spark3.3.1及以上版本、Flink1.15及以上版本在创建Jar作业时支持直接配置OBS中的程序包,不支持读取DLI程序包。

使用CES监控DLI服务

您可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。

例如监控DLI队列资源使用量和作业的运行情况。了解更多DLI支持的监控指标请参考使用CES监控DLI服务

使用CTS审计DLI服务

通过云审计服务,您可以记录与DLI服务相关的操作事件,便于日后的查询、审计和回溯。了解更多审计支持列表请参考使用CTS审计DLI服务