更新时间:2024-10-24 GMT+08:00

创建集群时配置LakeFormation数据连接

该章节指导用户在创建MRS 3.3.0-LTS集群时配置LakeFormation数据连接,并在创建完成后配置MRS集群相关参数完成与LakeFormation的对接。

创建集群时配置LakeFormation数据连接

  1. 进入购买MRS集群页面
  2. 单击“购买集群”,进入“购买集群”页面。
  3. 在购买集群页面,选择“自定义购买”。
  4. 参考购买自定义拓扑集群进行配置并创建集群,且集群需满足表1中要求。

    表1 LakeFormation数据连接参数说明

    参数

    参数说明

    版本类型

    LTS版

    集群版本

    选择配置对接的MRS集群版本。

    当前仅MRS 3.3.0-LTS及之后版本支持在创建集群时配置LakeFormation数据连接。

    组件选择

    必须包含Hadoop、Ranger、Hive、Guardian、Spark(可选)、Flink(可选)等组件。

    例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。

    元数据

    选择“外置数据连接”,并配置以下参数:

    1. LakeFormation元数据:单击按钮开启。
    2. LakeFormation连接实例:选择创建LakeFormation数据连接已创建的LakeFormation数据连接名称。
    3. 数据连接类型:保持默认。

    例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。

    虚拟私有云

    与LakeFormation数据连接所在的虚拟私有云保持一致。

    子网

    选择子网名称。

    拓扑调整

    选择“开启”,并确认Ranger组件至少添加1个PolicySync(PSC)实例(该实例部署节点需要同时包含RangerAdmin实例)、Guardian组件至少添加2个TokenSever(TS)实例。

    例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。

    Kerberos认证

    开启

    委托

    勾选“高级配置”后的“现在配置”,“委托”选择“现有委托”,并选择创建对接ECS/BMS云服务委托创建的委托。

    例如,配置如下图所示,不同版本集群可能存在差异,具体界面显示以实际为准。

  5. 等待集群创建完成后,在“现有集群”页面单击已创建的MRS集群名称,在“概览”页签单击“IAM用户同步”后的“同步”,根据界面提示同步当前用户。

  6. 参考配置MRS 3.3.0-LTS版本集群配置组件存算分离、下载客户端等操作。

配置MRS 3.3.0-LTS版本集群

  1. 登录MRS集群的FusionInsight Manager页面,具体操作请参考访问FusionInsight Manager(MRS 3.x及之后版本)
  2. 配置Guardian。

    1. 在FusionInsight Manager界面,选择“集群 > 服务 > Guardian > 配置 > 全部配置”,搜索并修改以下参数后,单击“保存”。
      表2 配置Guardian参数

      参数

      含义

      取值

      token.server.access.iam.domain.id

      访问IAM的用户对应的账号 ID。

      参考获取账号ID信息获取账号ID信息。

      xxx

      token.server.access.iam.project.id

      访问IAM的用户对应的项目ID。

      参考获取账号ID信息获取项目ID信息。

      xxx

      token.server.access.label.agency.name

      指定IAM委托的名字,需要具有访问OBS的权限。

      创建对接OBS权限的委托创建的委托名称。

      visit_obs_agency

      fs.obs.delegation.token.providers

      delegation.token的产生类名,默认为空。

      此处同时勾选以下参数值:

      • com.huawei.mrs.dt.MRSDelegationTokenProvider
      • com.huawei.mrs.dt.GuardianDTProvider

      com.huawei.mrs.dt.MRSDelegationTokenProvider,com.huawei.mrs.dt.GuardianDTProvider

      fs.obs.guardian.accesslabel.enabled

      是否开启使用Guardian对接OBS的access label。

      true

      fs.obs.guardian.enabled

      是否开启使用Guardian。

      true

    2. 进入Guardian服务“概览”页面,选择“更多 > 重启服务”。

  3. 配置Hive对接OBS文件系统。

    1. 在FusionInsight Manager界面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。
    2. 在左侧的导航列表中选择“HiveServer > 自定义”。在自定义配置项中添加如下参数。
      表3 HiveServer自定义参数配置说明

      参数

      描述

      取值样例

      hive.server.customized.configs

      • 添加参数“hive.metastore.warehouse.dir”。
      • 设置值为配置LakeFormation实例章节获取的hive Catalog在OBS中的存储路径。
      • 名称:hive.metastore.warehouse.dir
      • 值:obs://lakeformation-test/hive
      图1 hive.metastore.warehouse.dir配置
    3. 单击“保存”,保存配置。

  4. 配置Spark对接OBS文件系统。如果集群不存在Spark组件请跳过该步骤。

    1. 在FusionInsight Manager界面,选择“集群 > 服务 > Spark > 配置 > 全部配置”。
    2. 在左侧的导航列表中选择“JDBCServer > 自定义”,参考下表增加自定义参数及值。
      表4 Spark参数配置

      自定义参数

      参数值

      spark.hive-site.customized.configs

      • 参数:hive.metastore.warehouse.dir
      • 值:设置为配置LakeFormation实例章节获取的hive Catalog在OBS中的存储路径,例如“obs://lakeformation-test/hive”。
    3. 在左侧的导航列表中选择“SparkResource > 自定义”,参考表4配置参数。
    4. 单击“保存”,保存配置。

  5. 在MRS集群“组件管理”页签,查看是否存在“配置超期”的组件,如果存在请单击“操作”列的“重启”,重启相关组件。
  6. 重新下载并安装MRS集群完整客户端。具体操作请参考安装客户端
  7. 如果需要在管理控制台执行作业提交操作,需要更新集群内置客户端配置文件。

    在MRS集群概览页面,获取弹性IP,使用该IP登录Master节点,执行如下命令刷新集群内置客户端。

    su - omm

    sh /opt/executor/bin/refresh-client-config.sh

  8. 登录客户端安装节点,通过Hive客户端查看数据库,确认对接成功。

    source 客户端安装路径/bigdata_env

    kinit 组件业务用户

    beeline

    show databases;desc database default;

    !q

  9. 通过Spark客户端,查看数据库,确认对接成功。如果集群不存在Spark组件请跳过该步骤。

    source 客户端安装路径/Spark/component_env

    spark-sql

    show databases;desc database default;