创建LakeFormation元数据
LakeFormation中管理的元数据对象,包含数据目录(Catalog)、数据库、数据表等数据资源。
前提条件
- 已创建LakeFormation实例,且实例处于正常运行状态。
- Catalog数据存储到OBS中,当前用户需具有OBS相关操作权限。
- 已参考创建LakeFormation元数据存储路径提前创建了用于存储Catalog数据的OBS桶。
创建Catalog
数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。
用户可在LakeFormation中创建并管理多个Catalog,用于不同外部集群的元数据隔离。
- 登录LakeFormation管理控制台。
- 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“元数据 > Catalog”。
- 单击“创建Catalog”,配置相关参数。
- 在“基本信息”区域配置以下信息。
表1 创建Catalog 参数
参数说明
Catalog名称
填写待创建Catalog名称。
只能包含字母、数字和下划线,长度为1~256个字符。
Catalog类型
选择Catalog类型:
- DEFAULT
- CLICKHOUSE
选择位置
Catalog数据存储在OBS桶中的位置。可选参数。
单击“
”,根据实际需要选择“并行文件系统”或“对象存储桶”,并选择位置后,单击“确定”。
- 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1”。如果没有合适的OBS桶,可以单击“前往OBS创建”进行创建。
- 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
- 建议选择未被其他Catalog选中的文件夹。
描述
所创建Catalog的描述信息。
长度为0~4000字节,1个中文字符对应3个字节。
- (可选)单击“数据库存储位置”区域中的“添加数据库存储位置”。单击“
”可按照需求手动选择数据库存储位置,单击“确定”。支持添加多条。
“数据库存储位置”为可选参数。如果配置了该参数,则该Catalog下的数据库位置必须选择为该Catalog“数据库存储位置”的子路径、或该Catalog“选择位置”的子路径。
- 单击“提交”。
- 在“基本信息”区域配置以下信息。
- 创建完成后,即可在“Catalog”页面查看Catalog相关信息。
创建数据库
LakeFormation的一个Catalog下可以创建多个数据库,通过集中式的元数据管理,可以有效提升数据资产价值。
- 登录LakeFormation管理控制台。
- 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“元数据 > 数据库”。
- 在右上角“Catalog”后的下拉框中选择待创建数据库所属的Catalog名称。可以查看当前Catalog中包含的数据库。
- 单击“创建数据库”,配置相关参数。
- 在“基本信息”区域配置以下信息。
表2 创建数据库 参数
参数说明
库名称
填写待创建数据库名称。
只能包含中文、字母、数字、下划线,长度为1~128个字符。
所属Catalog
待创建数据库所属Catalog。
选择位置
数据库信息存储在OBS桶中的位置。
单击“
”,根据实际需要选择“并行文件系统”或“对象存储桶”,并选择位置后,单击“确定”。
- 所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1”。如果没有合适的OBS桶,可以单击“前往OBS创建”进行创建。
- 该路径必须与所属的Catalog存储路径(即创建Catalog时配置的“选择位置”参数)不同。
- 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
- 如果所属Catalog配置了“数据库存储位置”参数,则此处该参数必须选择为所属Catalog“选择位置”的子路径、或“数据库存储位置”的子路径。
描述
所创建数据库的描述信息。
长度为0~4000字节,1个中文字符对应3个字节。
- (可选)单击“数据表存储位置”区域中的“添加数据表存储位置”。单击“
”按照需求手动选择数据表存储位置,单击“确定”。支持添加多条。
- “数据表存储位置”为可选参数。
- “数据表存储位置”可选择为所属Catalog路径及其子路径、或“数据库存储位置”路径及其子路径。
- 如果配置了该参数,则该数据库下的数据表位置必须是该数据库“数据表存储位置”的子路径、或数据库“选择位置”的子路径。
- (可选)单击“函数存储位置”区域中的“添加函数存储位置”。单击“
”按照需求手动选择函数存储位置,单击“确定”。支持添加多条。
- “函数存储位置”为可选参数。
- “函数存储位置”可选择为所属Catalog路径及其子路径、或“数据库存储位置”路径及其子路径。
- 如果配置了该参数,则该数据库下的函数位置必须选择为该数据库“函数存储位置”或数据库“选择位置”的子路径。
- 单击“提交”。
- 在“基本信息”区域配置以下信息。
- 创建完成后,即可在“数据库”页面查看数据库的相关信息。
创建数据表
- 登录LakeFormation管理控制台。
- 在左侧下拉框中选择待操作的LakeFormation实例,选择“元数据 > 表”,在右上角“Catalog”和“数据库”后的下拉框中分别选择待创建表的Catalog、数据库的名称。可以查看当前数据库中包含的数据表。
- 单击“创建表”,配置相关参数。
- 在“基本信息”区域配置以下信息。
表3 基本信息配置参数 参数
参数说明
表名称
填写待创建的元数据表名称。
只能包含中文、字母、数字、下划线,长度为1~256个字符。
所属Catalog
待创建表所属的Catalog。
所属数据库
待创建表所属的数据库。
表类型
待创建表的类型,目前支持以下类型:
- MANAGED_TABLE:管理表。如果删除管理表或分区,则与该表或分区关联的数据和元数据将删除。
- EXTERNAL_TABLE:外部表。当文件已经存在或位于远程位置时,使用外部表。
- VIRTUAL_VIEW:虚拟视图。不存储实际的数据,不占用物理空间。
- MATERIALIZED_VIEW:物化视图。存储实际的数据,占用物理空间。
数据存储位置
表所映射的OBS桶的文件目录。
单击“”,选择表存储在OBS桶中的位置,单击“确定”。
- 可选参数,如果不配置,则数据表存储路径为“上层数据库存储路径/表名”。
- 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1/table1”。如果没有合适的OBS桶,可以单击“前往OBS创建”进行创建。
- 该路径必须与所属的Catalog、数据库的存储路径不同。
- 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
- 如果所属数据库配置了“数据表存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的子路径、或“数据表存储位置”的子路径。
是否压缩
数据表是否压缩。
压缩表能够使表中的数据以压缩格式存储,表压缩能提升性能,减少存储空间。
数据源格式
待创建表的数据源格式,目前支持以下类型:
分隔符
数据源格式为“Csv”时,需设置字段分隔符。目前支持以下类型:
- 逗号(,)
- 竖线(|)
- 分号(;)
- Tab(\u0009)
- Ctrl-A(\u0001)
描述
所创建表的描述信息。
长度为0~4000字节,1个中文字符对应3个字节。
- (可选)单击“表字段”区域中的“添加表字段”。按照需求手动添加元数据的表字段,单击“确定”。支持添加多条。
- (可选)单击“分区键”区域中的“添加分区键”。按照需求手动添加元数据的分区键,单击“确定”。支持添加多条。
- (可选)单击“表属性”区域中的“添加表属性”。按照需求添加元数据的表属性,单击“确定”。支持添加多条。
- 单击“提交”。
- 在“基本信息”区域配置以下信息。
- 创建完成后,即可在数据表页面查看相关信息。
创建函数
- 登录LakeFormation管理控制台。
- 在左侧下拉框中选择待操作的LakeFormation实例,选择“元数据 > 函数”。在右上角“Catalog”和“数据库”后的下拉框中分别选择待创建函数的Catalog、数据库的名称。可以查看当前数据库中包含的函数。
- 单击“创建函数”,配置相关参数。
- 在“基本信息”区域配置以下信息。
表4 基本信息配置参数 参数
参数说明
函数名称
填写待创建的元数据函数名称。
只能包含字母、数字、下划线,长度为1~256个字符。
所属Catalog
待创建函数的所属Catalog。
所属数据库
待创建函数的所属数据库。
类型
待创建函数的类型,目前支持“JAVA”类型。
函数类名
填写函数类名。
- (可选)单击“函数位置”区域中的“添加函数位置”,按照需求手动添加函数包类型和函数位置,单击“确定”。支持添加多条。
- “函数位置”为可选参数。
- 如果函数所属数据库配置了“函数存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的路径及其子路径、或“函数存储位置”的路径及其子路径。
- 单击“提交”。
- 在“基本信息”区域配置以下信息。
- 创建完成后,即可在“函数”页面查看函数的相关信息。
相关文档
元数据创建完成后,如果需要对其进行查看、修改、删除等操作,请参考管理LakeFormation元数据。