创建LakeFormation实例并规划元数据
操作场景
本入门提供从零开始创建LakeFormation实例,并为实例创建Catalog及内部的数据库、表等元数据的操作指导。
LakeFormation提供Catalog、数据库、数据表等的创建、修改、查看、删除等功能。帮助您便捷地进行数据湖初始化构建以及持续运营,集中式的统一管理LakeFormation实例下所有的元数据,加速实现数据湖承载的业务的规划和部署。
操作流程
开始使用如下样例前,请务必按准备工作指导完成必要操作。
- 创建LakeFormation实例:创建一个独享型LakeFormation实例。
- 创建存储元数据的OBS路径:创建用于存储元数据的OBS路径。
- 创建Catalog:创建一个名称为“catalog1”的Catalog。
- 创建数据库:在名称为“catalog1”的Catalog下创建一个名称为“database1”的数据库。
- 创建数据表:在名称为“database1”的数据库下创建一个名称为“table_A”的数据表。
准备工作
- 注册账号并实名认证。
在创建LakeFormation实例之前,请先注册华为账号并开通华为云,进行实名认证。
如果您已开通华为云并进行实名认证,请忽略此步骤。
- 已准备具有创建LakeFormation实例权限的IAM用户,详细操作请参见创建IAM用户并授权使用LakeFormation。
步骤一:创建LakeFormation实例
- 使用准备工作中准备的用户登录管理控制台。
- 在左上角单击“
”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
- 在“服务授权”页面,勾选“同意LakeFormation服务声明”,单击“同意授权”,完成服务授权。
如果已授权则跳过该步骤。
- 单击总览页面右上角“立即购买”或“购买实例”,进入购买实例页面。
首次创建实例时界面显示“立即购买”,如果界面已有LakeFormation实例则显示为“购买实例”。
- 按照需求配置以下参数。
表1 创建LakeFormation实例参数配置 参数
样例
参数说明
类型
独享
选择实例类型。
- 共享
- 独享
计费模式
按需收费
实例的计费模式。
项目
xxx
选择实例所属的项目。
名称
lakeformation-test
自定义LakeFormation实例名称。
QPS
10000
每秒最大请求数。如果“实例类型”为“共享型”,则无需配置该参数。
企业项目
xxx
选择集群所属的企业项目。如果当前无可用企业项目,可以单击“新建企业项目”进行创建。
描述
-
当前实例的描述信息。
标签
-
在标签键/值输入框输入内容后单击“添加”,即可添加标签。
- 单击“立即购买”,确认配置的相关信息并支付。
- 单击“返回控制台”,在控制台即可查看新创建的LakeFormation实例信息。
创建实例时需要注意配额提醒。当资源配额不足时,建议按照界面提示申请足够的资源,再创建实例。
等待实例状态变为“运行中”表示实例已创建成功。
步骤二:创建存储元数据的OBS路径
- 登录管理控制台。
- 在页面左上角单击
,选择“存储 > 对象存储服务”,进入对象存储服务页面。
- 选择“并行文件系统 > 创建并行文件系统”,进入创建页面,配置相关参数后单击“立即创建”。
- 文件系统名称:根据界面要求设置并行文件系统名称,例如“lakeformation-test”。
- 其他参数根据实际情况选择。
- 在并行文件系统页面,单击已创建的文件系统名称,例如“lakeformation-test”。
- 在左侧导航栏选择“文件”,单击“新建文件夹”,填写待创建的文件夹名称,单击“确定”。继续单击该文件夹名称,单击“新建文件夹”,可以创建其子文件夹。
参考该步骤,依次创建用于存放元数据的路径,例如:
- Catalog存储路径:lakeformation-test/catalog1
- 数据库存储路径:lakeformation-test/catalog1/database1
- 数据表存储路径:lakeformation-test/catalog1/database1/table1、lakeformation-test/catalog1/database1/table2
- 函数存储路径:lakeformation-test/catalog1/database1/udf1
步骤三:创建Catalog
- 登录管理控制台。
- 在左上角单击“
”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
- 在左侧下拉框中选择已创建的LakeFormation实例(例如lakeformation-test),在左侧导航栏选择“元数据 > Catalog”。
- 单击“创建Catalog”,参考下表配置相关参数,其他参数保持默认,单击“提交”。
表2 创建Catalog 参数
样例
参数说明
Catalog名称
catalog1
填写待创建Catalog名称。
只能包含字母、数字和下划线,长度为1~256个字符。
Catalog类型
DEFAULT
选择Catalog类型。
选择位置
obs://lakeformation-test/catalog1
Catalog数据存储在OBS中的位置。可选参数。
单击“
”,根据实际需要选择“并行文件系统”或“对象存储桶”,选择位置后,单击“确定”。
- 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1”。如果没有合适的OBS路径,可以单击“前往OBS创建”参考步骤二:创建存储元数据的OBS路径进行创建。
- 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
- 建议选择未被其他Catalog选中的文件夹。
描述
xxx
所创建Catalog的描述信息。
- 创建完成后,即可在“Catalog”页面查看相关信息。
步骤四:创建数据库
- 登录管理控制台。
- 在左上角单击“
”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
- 在左侧下拉框中选择已创建的LakeFormation实例(例如lakeformation-test),在左侧导航栏选择“元数据 > 数据库”。
- 在右上角“Catalog”后的下拉框中选择待创建数据库的Catalog名称(例如“catalog1”)。
- 单击“创建数据库”,参考下表配置相关参数,其他参数保持默认,单击“提交”。
表3 创建数据库 参数
样例
参数说明
库名称
database1
填写待创建数据库名称。
只能包含中文、字母、数字、下划线,长度为1~128个字符。
所属Catalog
catalog1
待创建数据库所属Catalog。
选择位置
obs://lakeformation-test/catalog1/database1
数据库信息存储在OBS中的位置。
单击“
”,根据实际需要选择“并行文件系统”或“对象存储桶”,选择位置后,单击“确定”。
- 所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1”。如果没有合适的OBS路径,可以单击“前往OBS创建”参考步骤二:创建存储元数据的OBS路径进行创建。
- 该路径必须与所属的Catalog存储路径(即创建Catalog时配置的“选择位置”参数)不同。
- 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
- 如果所属Catalog配置了“数据库存储位置”参数,则此处该参数必须选择为所属Catalog“选择位置”的子路径、或“数据库存储位置”的子路径。
描述
xxx
所创建数据库的描述信息。
- 创建完成后,即可在“数据库”页面查看详细信息。
步骤五:创建数据表
- 登录管理控制台。
- 在左上角单击“
”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
- 在左侧下拉框中选择已创建的LakeFormation实例(例如lakeformation-test),选择“元数据 > 表”,在右上角“Catalog”和“数据库”后的下拉框中分别选择“catalog1”、“database1”。
- 单击“创建表”,参考下表配置相关参数,其他参数保持默认,单击“提交”。
表4 基本信息配置参数 参数
样例
参数说明
表名称
table_A
填写待创建的元数据表名称。
只能包含中文、字母、数字、下划线,长度为1~256个字符。
所属Catalog
catalog1
待创建表所属的Catalog。
所属数据库
database1
待创建表所属的数据库。
表类型
MANAGED_TABLE
待创建表的类型,目前支持以下类型:
- MANAGED_TABLE:管理表。如果删除管理表或分区,则与该表或分区关联的数据和元数据将删除。
- EXTERNAL_TABLE:外部表。当文件已经存在或位于远程位置时,使用外部表。
- VIRTUAL_VIEW:虚拟视图。不存储实际的数据,不占用物理空间。
- MATERIALIZED_VIEW:物化视图。存储实际的数据,占用物理空间。
数据存储位置
obs://lakeformation-test/catalog1/database1/table1
表所映射的OBS的文件目录。
单击“”,选择表存储在OBS中的位置,单击“确定”。
- 可选参数,如果不配置,则数据表存储路径为“上层数据库存储路径/表名”
- 如果配置该参数,则所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1/table1”。如果没有合适的并行文件系统,可以单击“前往OBS创建”参考步骤二:创建存储元数据的OBS路径进行创建。
- 该路径必须与所属的Catalog、数据库的存储路径不同。
- 该路径不能与其他LakeFormation实例元数据存储路径重复,以免造成数据冲突。
- 如果所属数据库配置了“数据表存储位置”参数,则此处存储位置必须选择为所属数据库“选择位置”的子路径、或“数据表存储位置”的子路径。
是否压缩
勾选
数据表是否压缩。
压缩表能够使表中的数据以压缩格式存储,表压缩能提升性能,减少存储空间。
数据源格式
Parquet
待创建表的数据源格式。
分隔符
-
数据源格式为“Csv”时,需设置字段分隔符。
描述
xxx
所创建表的描述信息。
长度为0~4000字节,1个中文字符对应3个字节。
- 创建完成后,即可在数据表页面查看详细信息。