更新时间:2023-09-25 GMT+08:00
分享

规划数据湖

MRS对接LakeFormation仅支持对接LakeFormation实例的数据目录名称为hive的Catalog。

LakeFormation实例创建成功后,用户可按照业务规划创建相关Catalog及内部的数据库、表等元数据。

例如参考以下步骤,创建Catalog名称为“hive”(固定名称,不可自定义),并为该Catalog创建数据库“default”(固定名称,不可自定义),如果实例已包含hive Catalog、default数据库则可跳过对应操作,数据库内包含两个数据表“table_A”、“table_B”,并进行授权。

创建存储元数据的OBS路径

  1. 创建OBS并行文件系统,详情请参考创建并行文件系统章节。例如文件系统名称为“lakeformation-test”。
  2. 在并行文件系统页面,单击已创建的文件系统名称,例如“lakeformation-test”。
  3. 在左侧导航栏选择“文件”,单击“新建文件夹”,填写待创建的文件夹名称,单击“确定”。继续单击该文件夹名称,单击“新建文件夹”,可以创建其子文件夹。

    参考该步骤,依次创建用于存放元数据的路径,例如:

    • Catalog存储路径:lakeformation-test/catalog1
    • 数据库存储路径:lakeformation-test/catalog1/database1
    • 数据表存储路径:lakeformation-test/catalog1/database/table1
    • 函数存储路径:lakeformation-test/catalog1/database1/udf1

创建Catalog

  1. 登录LakeFormation管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“元数据 > Catalog”。
  4. 单击“创建Catalog”,配置以下参数后,单击“提交”。

    • Catalog名称:hive

      固定名称,不可自定义。如果当前已存在“hive” Catalog,则请跳过Catalog的创建操作。

    • 选择位置:单击“”,选择存储位置,例如选择“obs://lakeformation-test/catalog1”,单击“确定”。

      建议选择未被其他Catalog选中的文件夹。如果没有合适的并行文件系统,可以单击“前往OBS创建”参考创建存储元数据的OBS路径进行创建。

    • “描述”及“数据库存储位置”:无需配置。

  5. 创建完成后,即可在“Catalog”页面查看Catalog相关信息。

    删除元数据时如果同步删除文件,文件会放入文件所在OBS并行文件系统的“/user/service/.Trash/Current/”目录下。

创建数据库

  1. 登录LakeFormation管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“元数据 > 数据库”。
  4. 在右上角“Catalog”后的下拉框中选择“hive”。
  5. 单击“创建数据库”,配置相关参数后,单击“提交”。

    • 库名称:default

      固定名称,不可自定义。如果当前已存在“default”数据库,则请跳过数据库的创建操作。

    • 所属Catalog:hive
    • 选择位置:单击“”,选择位置,例如选择“obs://lakeformation-test/catalog1/database1”,单击“确定”。
      • 必须与所属的Catalog存储路径(即创建Catalog时配置的“选择位置”参数)不同。
      • 如果所属Catalog配置了“数据库存储位置”参数,则此处该参数必须选择为所属Catalog“选择位置”的子路径、或“数据库存储位置”的子路径。
      • 如果没有合适的并行文件系统,可以单击“前往OBS创建”参考创建存储元数据的OBS路径进行创建。
    • “描述”、“数据表存储位置”、“函数存储位置”:无需配置。

  6. 创建完成后,即可在“数据库”页面查看库名称/ID、所属Catalog、数据库拥有者、存储位置等信息。

    删除元数据时如果同步删除文件,文件会放入文件所在OBS并行文件系统的“/user/service/.Trash/Current/”目录下。

创建数据表

  1. 登录LakeFormation管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择待操作的LakeFormation实例,选择“元数据 > 表”,在右上角“Catalog”和“数据库”后的下拉框中分别选择“hive”、“default”。
  4. 单击“创建表”,配置相关参数后,单击“提交”。

    • 表名称:table_A
    • 数据存储位置:单击“”,选择表存储在OBS并行文件系统中的位置,例如选择“obs://lakeformation-test/catalog1/database1/table1”,单击“确定”。
      • 必须与所属的Catalog、数据库的存储路径不同。
      • 如果所属数据库配置了“数据表存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的子路径、或“数据表存储位置”的子路径。
      • 如果没有合适的并行文件系统,可以单击“前往OBS创建”参考创建存储元数据的OBS路径进行创建。
    • 其他参数请根据实际需要进行创建。

  5. 参考4创建名称为“table_B”的数据表。
  6. 创建完成后,即可在数据表页面查看表名称/ID、所属Catalog、所属数据库、类型、存储位置等信息。

    删除元数据时如果同步删除文件,文件会放入文件所在OBS并行文件系统的“/user/service/.Trash/Current/”目录下。

授权

参考新增授权章节根据实际需要对hive数据目录、default数据库进行授权。

分享:

    相关文档

    相关产品