更新时间:2024-02-01 GMT+08:00
元数据
数据目录(Catalog)
LakeFormation实例的元数据资源中的最顶层资源,即在一个LakeFormation实例下可以创建多个Catalog,包含名称、描述、位置等信息,支持创建、修改、删除等操作。
其中位置是Catalog所映射的OBS并行文件系统的文件目录。
数据库(Database)
LakeFormation实例的数据目录(Catalog)的下级资源,即在一个Catalog下可以创建多个Database,包含名称、所属Catalog、拥有者、位置、描述等信息,支持创建、修改、删除以及授权和查看权限等操作。
其中位置是Database所映射的OBS并行文件系统的文件目录。
数据表(Table)
LakeFormation实例的数据库(Database)的下级资源,即在一个Database下可以创建多个Table,包含基本信息、格式与序列化信息、字段信息、属性信息,支持创建、修改、删除以及授权和查看权限等操作。
函数(Function)
在SQL查询中使用函数对数据进行特定处理,包括内置函数和用户自定义函数UDF(User-Defined Functions)。
用户自定义函数分为以下几类:
- 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。
- 用户定义聚集函数UDAF(User-Defined Aggregating Functions),用于接受多个输入数据行,并产生一个输出数据行。
- 用户定义表生成函数UDTF(User-Defined Table-Generating Functions),用于操作单个输入行,产生多个输出行。
分区(Partition)
分区是对数据表按照行维度进行分割,目的是为了在特定SQL操作中减少数据读写的总量以缩减响应时间。
父主题: 基本概念