更新时间:2026-02-04 GMT+08:00
分享

基本概念

弹性资源池相关基本概念

本节介绍弹性资源池实际CUs、已使用CUs、CU范围、包周期CU(规格)的含义。

队列相关基本概念

本节介绍弹性资源池队列类型、实际CUs、已使用CUs、队列扩缩容策略中最小CUs和最大CUs的含义。

数据库

数据库即按照数据结构来组织、存储和管理数据的仓库。DLI服务管理权限的基础单元是数据库,赋权以数据库为单位。

在DLI中,表和数据库是定义底层数据的元数据容器。表中的元数据让DLI知道数据所在的位置,并指定了数据的结构,例如列名称、数据类型和表名称。数据库是表的逻辑分组。

OBS表、DLI表、CloudTable表

不同表类型表示不同的数据存储位置。

  • OBS表:表示数据存储在OBS服务的桶中。
  • DLI表:表示数据存储在本服务内部的表中。

    DLI存储资源是DLI服务内部存储的资源,用于存储数据库和DLI表,是向DLI导入数据的必备条件,体现用户数据存储在DLI中的数据量。

  • CloudTable表:表示数据储存在CloudTable服务的表中。

可通过DLI创建表,与其他服务的数据进行关联,以此来实现不同数据源的联合查询分析。

元数据

元数据(Metadata)是用来定义数据类型的数据。主要是描述数据自身信息,包含源、大小、格式或其它数据特征。数据库字段中,元数据用于诠释数据仓库的内容。

SQL作业

在SQL作业编辑器执行的SQL语句、导入数据和导出数据等操作,在系统中对应的执行实体,称之为SQL作业。

SQL作业适用于使用标准SQL语句进行查询的场景。通常用于结构化数据的查询和分析。

Flink作业

Flink作业专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。

  • Flink OpenSource作业:提交作业时可以使用DLI提供的标准的连接器(connectors)和丰富的API,快速与其他数据系统的集成。
  • Flink Jar作业:允许用户提交编译为Jar包的Flink作业,提供了更大的灵活性和自定义能力。适合需要自定义函数、UDF(用户定义函数)或特定库集成的复杂数据处理场景。可以利用Flink的生态系统,实现高级流处理逻辑和状态管理。

Spark作业

Spark作业是指用户通过可视化界面和RESTful API提交的作业,支持提交Spark Core/DataSet/MLlib/GraphX等Spark全栈作业。

CU

CU是DLI计算资源的单位。 1CU= 1Core 4GMem。不同规格的计算资源对应的计算能力不一样,规格越高计算能力越好。

常量与变量

环境变量中,常量与变量的区别如下:

  • 常量在程序运行过程中,所表示的值是无法被改变的。
  • 变量是“可读、可写”,而常量是“只读”的。变量是在程序运行过程中,内部存储的值,随时可以被改变的一段内存地址。比如:int a = 123,这里的a就是一个整型变量。

表生命周期

DLI表数据的生命周期管理功能(dli.lifecycle.days),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)DLI自动回收。这个指定的时间就是生命周期。生命周期管理功能方便您释放存储空间,简化回收数据的流程。同时提供数据备份与恢复功能,避免因误操作丢失数据。

相关文档