文档首页/ 湖仓构建 LakeFormation/ 快速入门/ 创建LakeFormation实例并规划元数据
更新时间:2025-07-22 GMT+08:00

创建LakeFormation实例并规划元数据

操作场景

本入门提供从零开始创建LakeFormation实例,并为实例创建Catalog及内部的数据库、表等元数据的操作指导。

LakeFormation提供Catalog、数据库、数据表等的创建、修改、查看、删除等功能。帮助您便捷地进行数据湖初始化构建以及持续运营,集中式的统一管理LakeFormation实例下所有的元数据,加速实现数据湖承载的业务的规划和部署。

操作流程

开始使用如下样例前,请务必按准备工作指导完成必要操作。

  1. 创建LakeFormation实例:创建一个独享型LakeFormation实例。
  2. 创建存储元数据的OBS路径:创建用于存储元数据的OBS路径。
  3. 创建Catalog:创建一个名称为“catalog1”的Catalog。
  4. 创建数据库:在名称为“catalog1”的Catalog下创建一个名称为“database1”的数据库。
  5. 创建数据表:在名称为“database1”的数据库下创建一个名称为“table_A”的数据表。

准备工作

步骤一:创建LakeFormation实例

  1. 使用准备工作中准备的用户登录管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在“服务授权”页面,勾选“同意LakeFormation服务声明”,单击“同意授权”,完成服务授权。

    如果已授权则跳过该步骤。

  4. 单击总览页面右上角“立即购买”或“购买实例”,进入购买实例页面。

    首次创建实例时界面显示“立即购买”,如果界面已有LakeFormation实例则显示为“购买实例”。

  5. 按照需求配置以下参数。

    表1 创建LakeFormation实例参数配置

    参数

    样例

    参数说明

    类型

    独享

    选择实例类型。

    • 共享
    • 独享

    计费模式

    按需收费

    实例的计费模式。

    项目

    xxx

    选择实例所属的项目。

    名称

    lakeformation-test

    自定义LakeFormation实例名称。

    QPS

    10000

    每秒最大请求数。如果“实例类型”为“共享型”,则无需配置该参数。

    企业项目

    xxx

    选择集群所属的企业项目。如果当前无可用企业项目,可以单击“新建企业项目”进行创建。

    描述

    -

    当前实例的描述信息。

    标签

    -

    在标签键/值输入框输入内容后单击“添加”,即可添加标签。

  6. 单击“立即购买”,确认配置的相关信息并支付。
  7. 单击“返回控制台”,在控制台即可查看新创建的LakeFormation实例信息。

    创建实例时需要注意配额提醒。当资源配额不足时,建议按照界面提示申请足够的资源,再创建实例。

    等待实例状态变为“运行中”表示实例已创建成功。

步骤二:创建存储元数据的OBS路径

  1. 登录管理控制台。
  2. 在页面左上角单击,选择“存储 > 对象存储服务”,进入对象存储服务页面。
  3. 选择“并行文件系统 > 创建并行文件系统”,进入创建页面,配置相关参数后单击“立即创建”。

    • 文件系统名称:根据界面要求设置并行文件系统名称,例如“lakeformation-test”。
    • 其他参数根据实际情况选择。

  4. 在并行文件系统页面,单击已创建的文件系统名称,例如“lakeformation-test”。
  5. 在左侧导航栏选择“文件”,单击“新建文件夹”,填写待创建的文件夹名称,单击“确定”。继续单击该文件夹名称,单击“新建文件夹”,可以创建其子文件夹。

    参考该步骤,依次创建用于存放元数据的路径,例如:

    • Catalog存储路径:lakeformation-test/catalog1
    • 数据库存储路径:lakeformation-test/catalog1/database1
    • 数据表存储路径:lakeformation-test/catalog1/database1/table1、lakeformation-test/catalog1/database1/table2
    • 函数存储路径:lakeformation-test/catalog1/database1/udf1

步骤三:创建Catalog

  1. 登录管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择已创建的LakeFormation实例(例如lakeformation-test),在左侧导航栏选择“元数据 > Catalog”。
  4. 单击“创建Catalog”,参考下表配置相关参数,其他参数保持默认,单击“提交”。

    表2 创建Catalog

    参数

    样例

    参数说明

    Catalog名称

    catalog1

    填写待创建Catalog名称。

    只能包含字母、数字和下划线,长度为1~256个字符。

    Catalog类型

    DEFAULT

    选择Catalog类型。

    选择位置

    obs://lakeformation-test/catalog1

    Catalog数据存储在OBS中的位置。可选参数。

    单击“”,根据实际需要选择“并行文件系统”或“对象存储桶”,选择位置后,单击“确定”。

    • 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1”。如果没有合适的OBS路径,可以单击“前往OBS创建”参考步骤二:创建存储元数据的OBS路径进行创建。
    • 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
    • 建议选择未被其他Catalog选中的文件夹。

    描述

    xxx

    所创建Catalog的描述信息。

  5. 创建完成后,即可在“Catalog”页面查看相关信息。

步骤四:创建数据库

  1. 登录管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择已创建的LakeFormation实例(例如lakeformation-test),在左侧导航栏选择“元数据 > 数据库”。
  4. 在右上角“Catalog”后的下拉框中选择待创建数据库的Catalog名称(例如“catalog1”)。
  5. 单击“创建数据库”,参考下表配置相关参数,其他参数保持默认,单击“提交”。

    表3 创建数据库

    参数

    样例

    参数说明

    库名称

    database1

    填写待创建数据库名称。

    只能包含中文、字母、数字、下划线,长度为1~128个字符。

    所属Catalog

    catalog1

    待创建数据库所属Catalog。

    选择位置

    obs://lakeformation-test/catalog1/database1

    数据库信息存储在OBS中的位置。

    单击“”,根据实际需要选择“并行文件系统”或“对象存储桶”,选择位置后,单击“确定”。

    • 所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1”。如果没有合适的OBS路径,可以单击“前往OBS创建”参考步骤二:创建存储元数据的OBS路径进行创建。
    • 该路径必须与所属的Catalog存储路径(即创建Catalog时配置的“选择位置”参数)不同。
    • 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
    • 如果所属Catalog配置了“数据库存储位置”参数,则此处该参数必须选择为所属Catalog“选择位置”的子路径、或“数据库存储位置”的子路径。

    描述

    xxx

    所创建数据库的描述信息。

  6. 创建完成后,即可在“数据库”页面查看详细信息。

步骤五:创建数据表

  1. 登录管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择已创建的LakeFormation实例(例如lakeformation-test),选择“元数据 > 表”,在右上角“Catalog”和“数据库”后的下拉框中分别选择“catalog1”、“database1”。
  4. 单击“创建表”,参考下表配置相关参数,其他参数保持默认,单击“提交”。

    表4 基本信息配置参数

    参数

    样例

    参数说明

    表名称

    table_A

    填写待创建的元数据表名称。

    只能包含中文、字母、数字、下划线,长度为1~256个字符。

    所属Catalog

    catalog1

    待创建表所属的Catalog。

    所属数据库

    database1

    待创建表所属的数据库。

    表类型

    MANAGED_TABLE

    待创建表的类型,目前支持以下类型:

    • MANAGED_TABLE:管理表。如果删除管理表或分区,则与该表或分区关联的数据和元数据将删除。
    • EXTERNAL_TABLE:外部表。当文件已经存在或位于远程位置时,使用外部表。
    • VIRTUAL_VIEW:虚拟视图。不存储实际的数据,不占用物理空间。
    • MATERIALIZED_VIEW:物化视图。存储实际的数据,占用物理空间。

    数据存储位置

    obs://lakeformation-test/catalog1/database1/table1

    表所映射的OBS的文件目录。

    单击“”,选择表存储在OBS中的位置,单击“确定”。
    • 可选参数,如果不配置,则数据表存储路径为“上层数据库存储路径/表名
    • 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1/table1”。如果没有合适的并行文件系统,可以单击“前往OBS创建”参考步骤二:创建存储元数据的OBS路径进行创建。
    • 该路径必须与所属的Catalog、数据库的存储路径不同。
    • 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
    • 如果所属数据库配置了“数据表存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的子路径、或“数据表存储位置”的子路径。

    是否压缩

    勾选

    数据表是否压缩。

    压缩表能够使表中的数据以压缩格式存储,表压缩能提升性能,减少存储空间。

    数据源格式

    Parquet

    待创建表的数据源格式。

    分隔符

    -

    数据源格式为“Csv”时,需设置字段分隔符。

    描述

    xxx

    所创建表的描述信息。

    长度为0~4000字节,1个中文字符对应3个字节。

  5. 创建完成后,即可在数据表页面查看详细信息。