创建集群时配置LakeFormation数据连接
该章节指导用户在创建MRS 3.3.0-LTS集群时配置LakeFormation数据连接,并在创建完成后配置MRS集群相关参数完成与LakeFormation的对接。
创建集群时配置LakeFormation数据连接
- 进入购买MRS集群页面。
- 单击“购买集群”,进入“购买集群”页面。
- 在购买集群页面,选择“自定义购买”。
- 参考购买自定义拓扑集群进行配置并创建集群,且集群需满足表1中要求。
表1 LakeFormation数据连接参数说明 参数
参数说明
版本类型
LTS版
集群版本
选择配置对接的MRS集群版本。
当前仅MRS 3.3.0-LTS及之后版本支持在创建集群时配置LakeFormation数据连接。
组件选择
必须包含Hadoop、Ranger、Hive、Guardian、Spark(可选)、Flink(可选)等组件。
例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。
元数据
选择“外置数据连接”,并配置以下参数:
- LakeFormation元数据:单击按钮开启。
- LakeFormation连接实例:选择创建LakeFormation数据连接已创建的LakeFormation数据连接名称。
- 数据连接类型:保持默认。
例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。
虚拟私有云
与LakeFormation数据连接所在的虚拟私有云保持一致。
子网
选择子网名称。
拓扑调整
选择“开启”,并确认Ranger组件至少添加1个PolicySync(PSC)实例(该实例部署节点需要同时包含RangerAdmin实例)、Guardian组件至少添加2个TokenSever(TS)实例。
例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。
Kerberos认证
开启
委托
勾选“高级配置”后的“现在配置”,“委托”选择“现有委托”,并选择创建对接ECS/BMS云服务委托创建的委托。
例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。
- 等待集群创建完成后,在“现有集群”页面单击已创建的MRS集群名称,在“概览”页签单击“IAM用户同步”后的“同步”,根据界面提示同步当前用户。
- 参考配置MRS 3.3.0-LTS版本集群配置组件存算分离、下载客户端等操作。
配置MRS 3.3.0-LTS版本集群
- 登录MRS集群的FusionInsight Manager页面,具体操作请参考访问FusionInsight Manager(MRS 3.x及之后版本)。
- 配置Guardian。
- 在FusionInsight Manager界面,选择“集群 > 服务 > Guardian > 配置 > 全部配置”,搜索并修改以下参数后,单击“保存”。
表2 配置Guardian参数 参数
含义
取值
token.server.access.iam.domain.id
访问IAM的用户对应的账号ID。
参考获取账号ID信息获取账号ID信息。
xxx
token.server.access.iam.project.id
访问IAM的用户对应的项目ID。
参考获取账号ID信息获取项目ID信息。
xxx
token.server.access.label.agency.name
指定IAM委托的名字,需要具有访问OBS的权限。
即创建对接OBS权限的委托创建的委托名称。
visit_obs_agency
fs.obs.delegation.token.providers
delegation.token的产生类名,默认为空。
此处同时勾选以下参数值:
- com.huawei.mrs.dt.MRSDelegationTokenProvider
- com.huawei.mrs.dt.GuardianDTProvider
com.huawei.mrs.dt.MRSDelegationTokenProvider,com.huawei.mrs.dt.GuardianDTProvider
fs.obs.guardian.accesslabel.enabled
是否开启使用Guardian对接OBS的access label。
true
fs.obs.guardian.enabled
是否开启使用Guardian。
true
- 进入Guardian服务“概览”页面,选择“更多 > 重启服务”。
- 在FusionInsight Manager界面,选择“集群 > 服务 > Guardian > 配置 > 全部配置”,搜索并修改以下参数后,单击“保存”。
- 配置Hive对接OBS文件系统。
- 在FusionInsight Manager界面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。
- 在左侧的导航列表中选择“HiveServer > 自定义”。在自定义配置项中添加如下参数。
表3 HiveServer自定义参数配置说明 参数
描述
取值样例
hive.server.customized.configs
- 添加参数“hive.metastore.warehouse.dir”。
- 设置值为配置LakeFormation实例章节获取的hive Catalog在OBS中的存储路径。
- 名称:hive.metastore.warehouse.dir
- 值:obs://lakeformation-test/hive
图1 hive.metastore.warehouse.dir配置
- 单击“保存”,保存配置。
- 配置Spark对接OBS文件系统。如果集群不存在Spark组件请跳过该步骤。
- 在FusionInsight Manager界面,选择“集群 > 服务 > Spark > 配置 > 全部配置”。
- 在左侧的导航列表中选择“JDBCServer > 自定义”,参考下表增加自定义参数及值。
表4 Spark参数配置 自定义参数
参数值
custom
- 参数:spark.sql.warehouse.location.first
- 值:true
spark.hive-site.customized.configs
- 参数:hive.metastore.warehouse.dir
- 值:设置为配置LakeFormation实例章节获取的hive Catalog在OBS中的存储路径,例如“obs://lakeformation-test/hive”。
- 在左侧的导航列表中选择“SparkResource > 自定义”,参考表4配置参数。
- 单击“保存”,保存配置。
- 在MRS集群“组件管理”页签,查看是否存在“配置超期”的组件,如果存在请单击“操作”列的“重启”,重启相关组件。
- 重新下载并安装MRS集群完整客户端。具体操作请参考安装客户端。
- 如果需要在管理控制台执行作业提交操作,需要更新集群内置客户端配置文件。
在MRS集群概览页面,获取弹性IP,使用该IP登录Master节点,执行如下命令刷新集群内置客户端。
su - omm
sh /opt/executor/bin/refresh-client-config.sh
- 登录客户端安装节点,通过Hive客户端查看数据库,确认对接成功。
source 客户端安装路径/bigdata_env
kinit 组件业务用户
beeline
show databases;desc database default;
!q
- 通过Spark客户端,查看数据库,确认对接成功。如果集群不存在Spark组件请跳过该步骤。
source 客户端安装路径/Spark/component_env
spark-sql
show databases;desc database default;