更新时间:2025-07-22 GMT+08:00

创建LakeFormation元数据

LakeFormation中管理的元数据对象,包含数据目录(Catalog)、数据库、数据表等数据资源。

前提条件

  • 已创建LakeFormation实例,且实例处于正常运行状态。
  • Catalog数据存储到OBS中,当前用户需具有OBS相关操作权限。
  • 已参考创建LakeFormation元数据存储路径提前创建了用于存储Catalog数据的OBS桶

创建Catalog

数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。

用户可在LakeFormation中创建并管理多个Catalog,用于不同外部集群的元数据隔离。

  1. 登录LakeFormation管理控制台
  2. 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“元数据 > Catalog”。
  3. 单击“创建Catalog”,配置相关参数。

    1. 在“基本信息”区域配置以下信息。
      表1 创建Catalog

      参数

      参数说明

      Catalog名称

      填写待创建Catalog名称。

      只能包含字母、数字和下划线,长度为1~256个字符。

      Catalog类型

      选择Catalog类型:

      • DEFAULT
      • CLICKHOUSE

      选择位置

      Catalog数据存储在OBS桶中的位置。可选参数。

      单击“”,根据实际需要选择“并行文件系统”或“对象存储桶”,并选择位置后,单击“确定”。

      • 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1”。如果没有合适的OBS桶,可以单击“前往OBS创建”进行创建。
      • 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
      • 建议选择未被其他Catalog选中的文件夹。

      描述

      所创建Catalog的描述信息。

      长度为0~4000字节,1个中文字符对应3个字节。

    2. (可选)单击“数据库存储位置”区域中的“添加数据库存储位置”。单击“”可按照需求手动选择数据库存储位置,单击“确定”。支持添加多条。

      “数据库存储位置”为可选参数。如果配置了该参数,则该Catalog下的数据库位置必须选择为该Catalog“数据库存储位置”的子路径、或该Catalog“选择位置”的子路径。

    3. 单击“提交”。

  4. 创建完成后,即可在“Catalog”页面查看Catalog相关信息。

创建数据库

LakeFormation的一个Catalog下可以创建多个数据库,通过集中式的元数据管理,可以有效提升数据资产价值。

  1. 登录LakeFormation管理控制台
  2. 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“元数据 > 数据库”。
  3. 在右上角“Catalog”后的下拉框中选择待创建数据库所属的Catalog名称。可以查看当前Catalog中包含的数据库。
  4. 单击“创建数据库”,配置相关参数。

    1. 在“基本信息”区域配置以下信息。
      表2 创建数据库

      参数

      参数说明

      库名称

      填写待创建数据库名称。

      只能包含中文、字母、数字、下划线,长度为1~128个字符。

      所属Catalog

      待创建数据库所属Catalog。

      选择位置

      数据库信息存储在OBS桶中的位置。

      单击“”,根据实际需要选择“并行文件系统”或“对象存储桶”,并选择位置后,单击“确定”。

      • 所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1”。如果没有合适的OBS桶,可以单击“前往OBS创建”进行创建。
      • 该路径必须与所属的Catalog存储路径(即创建Catalog时配置的“选择位置”参数)不同。
      • 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
      • 如果所属Catalog配置了“数据库存储位置”参数,则此处该参数必须选择为所属Catalog“选择位置”的子路径、或“数据库存储位置”的子路径。

      描述

      所创建数据库的描述信息。

      长度为0~4000字节,1个中文字符对应3个字节。

    2. (可选)单击“数据表存储位置”区域中的“添加数据表存储位置”。单击“”按照需求手动选择数据表存储位置,单击“确定”。支持添加多条。
      • “数据表存储位置”为可选参数。
      • “数据表存储位置”可选择为所属Catalog路径及其子路径、或“数据库存储位置”路径及其子路径。
      • 如果配置了该参数,则该数据库下的数据表位置必须是该数据库“数据表存储位置”的子路径、或数据库“选择位置”的子路径。
    3. (可选)单击“函数存储位置”区域中的“添加函数存储位置”。单击“”按照需求手动选择函数存储位置,单击“确定”。支持添加多条。
      • “函数存储位置”为可选参数。
      • “函数存储位置”可选择为所属Catalog路径及其子路径、或“数据库存储位置”路径及其子路径。
      • 如果配置了该参数,则该数据库下的函数位置必须选择为该数据库“函数存储位置”或数据库“选择位置”的子路径。
    4. 单击“提交”。

  5. 创建完成后,即可在“数据库”页面查看数据库的相关信息。

创建数据表

  1. 登录LakeFormation管理控制台
  2. 在左侧下拉框中选择待操作的LakeFormation实例,选择“元数据 > 表”,在右上角“Catalog”和“数据库”后的下拉框中分别选择待创建表的Catalog、数据库的名称。可以查看当前数据库中包含的数据表。
  3. 单击“创建表”,配置相关参数。

    1. 在“基本信息”区域配置以下信息。
      表3 基本信息配置参数

      参数

      参数说明

      表名称

      填写待创建的元数据表名称。

      只能包含中文、字母、数字、下划线,长度为1~256个字符。

      所属Catalog

      待创建表所属的Catalog。

      所属数据库

      待创建表所属的数据库。

      表类型

      待创建表的类型,目前支持以下类型:

      • MANAGED_TABLE:管理表。如果删除管理表或分区,则与该表或分区关联的数据和元数据将删除。
      • EXTERNAL_TABLE:外部表。当文件已经存在或位于远程位置时,使用外部表。
      • VIRTUAL_VIEW:虚拟视图。不存储实际的数据,不占用物理空间。
      • MATERIALIZED_VIEW:物化视图。存储实际的数据,占用物理空间。

      数据存储位置

      表所映射的OBS桶的文件目录。

      单击“”,选择表存储在OBS桶中的位置,单击“确定”。
      • 可选参数,如果不配置,则数据表存储路径为“上层数据库存储路径/表名”。
      • 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1/table1”。如果没有合适的OBS桶,可以单击“前往OBS创建”进行创建。
      • 该路径必须与所属的Catalog、数据库的存储路径不同。
      • 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
      • 如果所属数据库配置了“数据表存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的子路径、或“数据表存储位置”的子路径。

      是否压缩

      数据表是否压缩。

      压缩表能够使表中的数据以压缩格式存储,表压缩能提升性能,减少存储空间。

      数据源格式

      待创建表的数据源格式,目前支持以下类型:

      • Avro
      • Json
      • Xml
      • Parquet
      • Csv
      • Orc
      • Text
      • Rc
      • Sequence
      • 自定义

        如果选择为“自定义”需要根据实际需求配置“输入格式”、“输出格式”、“Serde name”、“SerializationLib”参数。

      分隔符

      数据源格式为“Csv”时,需设置字段分隔符。目前支持以下类型:

      • 逗号(,)
      • 竖线(|)
      • 分号(;)
      • Tab(\u0009)
      • Ctrl-A(\u0001)

      描述

      所创建表的描述信息。

      长度为0~4000字节,1个中文字符对应3个字节。

    2. (可选)单击“表字段”区域中的“添加表字段”。按照需求手动添加元数据的表字段,单击“确定”。支持添加多条。

      表字段:表字段是表中组成记录的一条条独立的信息。

    3. (可选)单击“分区键”区域中的“添加分区键”。按照需求手动添加元数据的分区键,单击“确定”。支持添加多条。

      分区键:分区键是一个或多个表列的有序集合。表分区键列中的值用来确定每个表行所属的数据分区。

    4. (可选)单击“表属性”区域中的“添加表属性”。按照需求添加元数据的表属性,单击“确定”。支持添加多条。

      表属性:使您能够使用自己的元数据键/值对来标记表定义。

    5. 单击“提交”。

  4. 创建完成后,即可在数据表页面查看相关信息。

创建函数

  1. 登录LakeFormation管理控制台
  2. 在左侧下拉框中选择待操作的LakeFormation实例,选择“元数据 > 函数”。在右上角“Catalog”和“数据库”后的下拉框中分别选择待创建函数的Catalog、数据库的名称。可以查看当前数据库中包含的函数。
  3. 单击“创建函数”,配置相关参数。

    1. 在“基本信息”区域配置以下信息。
      表4 基本信息配置参数

      参数

      参数说明

      函数名称

      填写待创建的元数据函数名称。

      只能包含字母、数字、下划线,长度为1~256个字符。

      所属Catalog

      待创建函数的所属Catalog。

      所属数据库

      待创建函数的所属数据库。

      类型

      待创建函数的类型,目前支持“JAVA”类型。

      函数类名

      填写函数类名。

    2. (可选)单击“函数位置”区域中的“添加函数位置”,按照需求手动添加函数包类型和函数位置,单击“确定”。支持添加多条。
      • “函数位置”为可选参数。
      • 如果函数所属数据库配置了“函数存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的路径及其子路径、或“函数存储位置”的路径及其子路径。
    3. 单击“提交”。

  4. 创建完成后,即可在“函数”页面查看函数的相关信息。

相关文档

元数据创建完成后,如果需要对其进行查看、修改、删除等操作,请参考管理LakeFormation元数据