更新时间:2026-04-14 GMT+08:00
分享

了解数据目录、数据库和表

数据库和表是AI DataLake作业开发的基础,在执行作业前您需要根据业务场景规划数据库和表。

AI DataLake使用LakeFormation提供元数据管理、数据权限管理、数据接入管理等操作。

本节操作介绍数据目录、数据库和表的基本概念。

数据目录与数据库和表的关系

图1所示,

数据目录负责管理元数据,数据库负责分类,表负责描述具体数据集,OBS负责存储数据,而Lake Formation负责数据统一权限控制和治理。

  • 数据目录记录数据存放在哪里、表结构是什么、数据格式如何以及谁有权限访问这些数据。
  • 数据库是数据目录中的逻辑分类单位,用来把一组相关的表组织在一起。
  • 表则是对具体数据集的定义,描述了底层数据在OBS桶中的位置、字段、分区和格式等信息。
图1 数据目录与数据库和表的关系

数据目录

数据目录就是LakeFormation中保存元数据的管理体系,可以统一管理所有数据库,记录数据库的位置、权限、元数据(描述数据的数据),即

数据目录并不是直接存储数据内容,而是保存“关于数据的数据”,即云数据。

数据库

数据库是数据目录的子单元,它是按照数据结构来组织、存储和管理数据的,通常用于存储、检索和管理结构化数据,由多个数据表组成,这些数据表通过键和索引相互关联。

表是数据库最重要的组成部分,是结构化存储数据的二维表格,它由行和列组成。每一行代表一个数据项,每一列代表数据的一个属性或特征。表用于组织和存储特定类型的数据,使得数据可以被有效地查询和分析。

数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。

创建数据库和表时,有权限控制,需要对其他用户授权,其他用户才可查看该用户新建的数据库和表。

表的元数据

元数据(Metadata)是用来定义数据类型的数据。主要是描述数据自身信息,包含源、大小、格式或其它数据特征。数据库字段中,元数据用于诠释数据仓库的内容。

创建表时,会定义元数据,由列名、类型、列描述三列组成。

数据库和表的约束与限制

表1 DLI资源相关约束限制

限制项

说明

数据库

  • “default”为内置数据库,不能创建名为“default”的数据库。
  • DLI支持创建的数据库的最大数量为50个。

数据表

  • DLI支持创建的表的最大数量为5000个。
  • DLI支持创建表类型:
    • Managed:数据存储位置为DLI的表。
    • External:数据存储位置为OBS的表。
    • View:视图,视图只能通过SQL语句创建。
    • 跨源表:表类型同样为External。
  • 创建DLI表时不支持指定存储路径。

数据导入

  • 仅支持将OBS上的数据导入DLI或OBS中。
  • 支持将OBS中CSV,Parquet,ORC,JSON和Avro格式的数据导入到在DLI中创建的表。
  • 将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。
  • 导入数据的编码格式仅支持UTF-8。

数据导出

  • 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。
  • 导出文件格式为json格式,且文本格式仅支持UTF-8。
  • 支持跨账号导出数据,即B账户对A账户授权后,A账户拥有B账户OBS桶的元数据信息和权限信息的读取权限,以及路径的读写权限,则A账户可将数据导出至B账户的OBS路径中。

表管理页面

在“数据管理”页面中,单击对应数据库名称或“操作”列中的“表管理”,可进入其表管理页面。

表管理页面显示用户在当前数据库中创建所有的表,您可以查看表类型,数据存储位置等信息。表列表默认按创建时间排列,创建时间最近的表显示在最前端。

相关文档