更新时间:2022-09-30 GMT+08:00
分享

配置Hive连接

目前CDM支持连接的Hive数据源有以下几种:

MRS Hive

用户具有MRS Hive连接的表的访问权限时,才能在字段映射时看到表。

MRS Hive连接适用于华为云上的MapReduce服务。MRS Hive的连接参数如表1所示。

  • 新建MRS连接前,需在MRS中添加一个kerberos认证用户并登录MRS管理页面更新其初始密码,然后使用该新建用户创建MRS连接。
  • 如需连接MRS 2.x版本的集群,请先创建2.x版本的CDM集群。CDM 1.8.x版本的集群无法连接MRS 2.x版本的集群。
  • 由于当前CDM Hive连接是从MRS HDFS组件获取core-site.xml配置信息,所以在MRS侧使用的是Hive over OBS场景时,在创建Hive连接前,需要用户在MRS管理界面的HDFS组件中配置OBS的AK、SK信息。
  • 需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件:
    • DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。
    • DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则《章节。
    • 此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。
表1 MRS Hive连接参数

参数名

说明

取值样例

名称

连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

hivelink

Manager IP

MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。

127.0.0.1

认证类型

访问MRS的认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

SIMPLE

Hive版本

Hive的版本。根据服务端Hive版本设置。

HIVE_3_X

用户名

选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。

如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”“密码”填写为新建的MRS用户及其密码。
说明:
  • 如果CDM集群为2.9.0版本及之后版本,且MRS集群为3.1.0及之后版本,则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接;如果需要对MRS组件的库、表、列进行操作,还需要参考MRS文档添加对应组件的库、表、列操作权限。
  • 如果CDM集群为2.9.0之前的版本,或MRS集群为3.1.0之前的版本,则所创建的用户需要具备Manager_administrator或System_administrator权限,才能在CDM创建连接。
  • 仅具备Manager_tenant或Manager_auditor权限,无法创建连接。

cdm

密码

访问MRS Manager的用户密码。

-

OBS支持

需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。

运行模式

“HIVE_3_X”版本支持该参数。支持以下模式:
  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。

    说明:STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。

EMBEDDED

检查Hive JDBC连通性

是否需要测试Hive JDBC连通。

是否使用集群配置

您可以通过使用集群配置,简化Hadoop连接参数配置。

集群配置名

仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。

集群配置的创建方法请参见管理集群配置

hive_01

单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。

常见配置举例如下:
  • connectTimeout=360000socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
  • hive.server2.idle.operation.timeout=360000:为避免Hive迁移作业长时间卡住,可自定义operation超时时间(单位ms)。
  • hive.storeFormat=textfile:关系型数据库迁移到Hive时,自动建表默认为orc格式。如果需要指定为textfile格式,可增加此配置。parquet格式同理,hive.storeFormat属性值指定为parquet格式即可。
  • fs.defaultFS=obs://hivedb:对接的MRS Hive为存算分离模式时,可通过此配置获取更佳兼容性。

FusionInsight Hive

FusionInsight Hive连接适用于用户在本地数据中心自建的FusionInsight HD,需通过专线连接。

FusionInsight Hive的连接参数如表2所示。

表2 FusionInsight Hive连接参数

参数名

说明

取值样例

名称

连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

hivelink

Manager IP

FusionInsight Manager平台的地址。

127.0.0.1

Manager端口

FusionInsight Manager平台的端口。

28443

CAS Server端口

与FusionInsight对接的CAS Server的端口。

20009

认证类型

访问集群的认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

SIMPLE

Hive版本

Hive的版本。

HIVE_3_X

用户名

登录FusionInsight Manager平台的用户名。

cdm

密码

FusionInsight Manager平台的密码。

-

OBS支持

需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。

运行模式

“HIVE_3_X”版本支持该参数。支持以下模式:

  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。

    说明:STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。

EMBEDDED

是否使用集群配置

您可以通过使用集群配置,简化Hadoop连接参数配置。

集群配置名

仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。

集群配置的创建方法请参见管理集群配置

hive_01

单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。

常见配置举例如下:
  • connectTimeout=360000socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
  • hive.server2.idle.operation.timeout=360000:为避免Hive迁移作业长时间卡住,可自定义operation超时时间(单位ms)。

Apache Hive

Apache Hive连接适用于用户在本地数据中心或ECS上自建的第三方Hadoop,其中本地数据中心的Hadoop需通过专线连接。

Apache Hive的连接参数如表3所示。

表3 Apache Hive连接参数

参数名

说明

取值样例

名称

连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

hivelink

URI

NameNode URI地址。

hdfs://hacluster

Hive元数据地址

设置Hive元数据地址,参考 hive.metastore.uris配置项。例如:thrift://host-192-168-1-212:9083

-

认证类型

访问集群的认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

SIMPLE

Hive版本

Hive的版本。

HIVE_3_X

IP与主机名映射

如果Hadoop配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。

-

OBS支持

需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。

运行模式

“HIVE_3_X”版本支持该参数。支持以下模式:

  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。

    说明:STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。

EMBEDDED

是否使用集群配置

您可以通过使用集群配置,简化Hadoop连接参数配置。

集群配置名

当“是否使用集群配置”为“是”或“认证类型”为“KERBEROS”时,此参数有效。此参数用于选择用户已经创建好的集群配置。

集群配置的创建方法请参见管理集群配置

hive_01

Hive JDBC连接串

连接Hive JDBC的url,默认使用匿名用户连接。

-

单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。

常见配置举例如下:
  • connectTimeout=360000socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
  • hive.server2.idle.operation.timeout=360000:为避免Hive迁移作业长时间卡住,可自定义operation超时时间(单位ms)。
分享:

    相关文档

    相关产品