更新时间:2024-02-01 GMT+08:00

元数据

数据目录(Catalog)

LakeFormation实例的元数据资源中的最顶层资源,即在一个LakeFormation实例下可以创建多个Catalog,包含名称、描述、位置等信息,支持创建、修改、删除等操作。

其中位置是Catalog所映射的OBS并行文件系统的文件目录。

数据库(Database)

LakeFormation实例的数据目录(Catalog)的下级资源,即在一个Catalog下可以创建多个Database,包含名称、所属Catalog、拥有者、位置、描述等信息,支持创建、修改、删除以及授权和查看权限等操作。

其中位置是Database所映射的OBS并行文件系统的文件目录。

数据表(Table)

LakeFormation实例的数据库(Database)的下级资源,即在一个Database下可以创建多个Table,包含基本信息、格式与序列化信息、字段信息、属性信息,支持创建、修改、删除以及授权和查看权限等操作。

函数(Function)

在SQL查询中使用函数对数据进行特定处理,包括内置函数和用户自定义函数UDF(User-Defined Functions)。

用户自定义函数分为以下几类:

  • 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。
  • 用户定义聚集函数UDAF(User-Defined Aggregating Functions),用于接受多个输入数据行,并产生一个输出数据行。
  • 用户定义表生成函数UDTF(User-Defined Table-Generating Functions),用于操作单个输入行,产生多个输出行。

分区(Partition)

分区是对数据表按照行维度进行分割,目的是为了在特定SQL操作中减少数据读写的总量以缩减响应时间。