更新时间:2024-05-11 GMT+08:00

概述

DLI 作业类型

DLI 提供了三种作业类型:

  • SQL作业:SQL作业为用户提供标准的SQL,兼容Spark SQL、Presto SQL(基于Presto),通过可视化界面API、JDBC、ODBC、Beeline等多种接入方式对云上异构数据源进行查询分析,兼容CSV、JSON、Parquet、Carbon、ORC等主流数据格式。
  • Flink作业:Flink作业是运行在公有云上的实时流式大数据分析服务作业,全托管的方式用户无需感知计算集群,只需聚焦于Stream SQL业务,即时执行作业,完全兼容Apache Flink API。
  • Spark作业:Spark作业可为用户提供全托管式的Spark计算服务。用户可通过可视化界面和RESTful API提交作业,支持提交Spark Core、DataSet、Streaming、MLlib、GraphX等Spark全栈作业。

约束限制

  • DLI支持的作业类型:Spark SQL、SparkJar、Flink SQL、Flink Jar
  • DLI支持的Spark版本:Spark 3.3.1、Spark 3.1.1(EOM)、Spark 2.4.5(EOM)、Spark 2.3(EOS)
  • DLI支持的Flink版本:Flink Jar 1.15、Flink 1.12(EOM)、Flink 1.10(EOS)、Flink 1.7(EOS)
  • SQL作业支持Spark和Trino两种引擎。
    • Spark:显示执行引擎为“Spark”的作业。
    • Trino:显示执行引擎为“Trino”的作业。
  • DLI配置SparkUI只展示最新的100条作业信息。
  • 控制台界面查询结果最多显示1000条作业结果数据,如果需要查看更多或者全量数据,则可以通过该功能将数据导出到OBS获取。
  • 导出作业运行日志需要具有OBS桶的权限,请提前在“全局配置 > 工程配置”页面配置DLI作业桶。
  • default队列下运行的作业或者该作业为同步作业时不支持归档日志操作。
  • 仅Spark作业支持使用自定义镜像。
  • 当前弹性资源池最大的计算资源 32000CUs。
  • 弹性资源池中可创建队列的最小CU:
    • 通用队列:4CUs
    • SQL队列:Spark SQL队列:8CUs;Trino SQL队列:16CUs