更新时间:2024-08-26 GMT+08:00

管理数据表

用户在数据目录(Catalog)中可对元数据库和元数据表进行管理,按照业务规划创建对应数据表。

前提条件

  • 已创建LakeFormation实例,且实例处于正常运行状态。
  • 已创建待创建数据表的数据库及其所属Catalog。
  • 已参考创建元数据存储路径提前创建了用于存储数据表的OBS并行文件系统。

管理数据表

  1. 登录管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择待操作的LakeFormation实例,选择“元数据 > 表”,在右上角“Catalog”和“数据库”后的下拉框中分别选择待创建表的Catalog、数据库的名称。可以查看当前数据库中包含的数据表。
  4. 单击“创建表”,配置相关参数。

    1. 在“基本信息”区域配置以下信息。
      表1 基本信息配置参数

      参数

      参数说明

      表名称

      填写待创建的元数据表名称。

      只能包含中文、字母、数字、下划线,长度为1~256个字符。

      所属Catalog

      待创建表所属的Catalog。

      所属数据库

      待创建表所属的数据库。

      表类型

      待创建表的类型,目前支持以下类型:

      • MANAGED_TABLE:管理表。如果删除管理表或分区,则与该表或分区关联的数据和元数据将删除。
      • EXTERNAL_TABLE:外部表。当文件已经存在或位于远程位置时,使用外部表。
      • VIRTUAL_VIEW:虚拟视图。不存储实际的数据,不占用物理空间。
      • MATERIALIZED_VIEW:物化视图。存储实际的数据,占用物理空间。

      数据存储位置

      表所映射的OBS并行文件系统的文件目录。

      单击“”,选择表存储在OBS并行文件系统中的位置,单击“确定”。
      • 可选参数,如果不配置,则数据表存储路径为“上层数据库存储路径/表名
      • 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1/table1”。如果没有合适的并行文件系统,可以单击“前往OBS创建”进行创建。
      • 必须与所属的Catalog、数据库的存储路径不同。
      • 如果所属数据库配置了“数据表存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的子路径、或“数据表存储位置”的子路径。

      是否压缩

      数据表是否压缩。

      压缩表能够使表中的数据以压缩格式存储,表压缩能提升性能,减少存储空间。

      数据源格式

      待创建表的数据源格式,目前支持以下类型:

      • Avro
      • Json
      • Xml
      • Parquet
      • Csv
      • Orc
      • Text
      • Rc
      • Sequence
      • 自定义

        如果选择为“自定义”需要根据实际需求配置“输入格式”、“输出格式”、“Serde name”、“SerializationLib”参数。

      分隔符

      数据源格式为“Csv”时,需设置字段分隔符。目前支持以下类型:

      • 逗号(,)
      • 竖线(|)
      • 分号(;)
      • Tab(\u0009)
      • Ctrl-A(\u0001)

      描述

      所创建表的描述信息。

      长度为0~4000字节,1个中文字符对应3个字节。

    2. (可选)单击“表字段”区域中的“添加表字段”。按照需求手动添加元数据的表字段,单击“确定”。支持添加多条。

      表字段:表字段是表中组成记录的一条条独立的信息。

    3. (可选)单击“分区键”区域中的“添加分区键”。按照需求手动添加元数据的分区键,单击“确定”。支持添加多条。

      分区键:分区键是一个或多个表列的有序集合。表分区键列中的值用来确定每个表行所属的数据分区。

    4. (可选)单击“表属性”区域中的“添加表属性”。按照需求添加元数据的表属性,单击“确定”。支持添加多条。

      表属性:使您能够使用自己的元数据键/值对来标记表定义。

    5. 单击“提交”。

  5. 创建完成后,即可在数据表页面查看表名称/ID、所属Catalog、所属数据库、类型、存储位置等信息。

    • 单击“操作”列的“编辑”可以修改数据表配置信息。
    • 在“更多”中可以为当前数据表进行授权、查看权限等操作。
    • 单击数据表名称,可以查看当前数据表的详细元数据信息。
      • 其中格式与序列化信息包含存储格式、输入格式、输出格式等。
      • 其中字段信息包含表字段名称、类型、描述,以及分区键的字段名称、类型、描述。
      • 其中表属性信息包含Table的各个属性的属性名、属性值。

      单击“编辑”按钮,可对数据表相关字段进行修改。

  6. 如果需要删除数据表,可以选择“更多 > 删除”,确认操作影响,并确认是否“同时删除存储在OBS的数据”,单击“确定”。

    删除元数据时如果同步删除文件,数据将移入对应OBS桶的回收站(“lake-formation-trash-dir/table_id”OBS路径)目录下。