Hive连接参数说明

目前CDM支持连接的Hive数据源有以下几种：

MRS Hive
FusionInsight Hive
Apache Hive

作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。

MRS Hive

用户具有MRS Hive连接的表的访问权限时，才能在字段映射时看到表。

MRS Hive连接适用于华为云上的MapReduce服务。MRS Hive的连接参数如表1所示。

当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。
新建MRS Hive连接前，需在MRS中添加一个kerberos认证用户并登录MRS管理页面更新其初始密码，然后使用该新建用户创建MRS连接。
如需连接MRS 2.x版本的集群，请先创建2.x版本的CDM集群。CDM 1.8.x版本的集群无法连接MRS 2.x版本的集群。
由于当前CDM Hive连接是从MRS HDFS组件获取core-site.xml配置信息，所以在MRS侧使用的是Hive over OBS场景时，在创建Hive连接前，需要用户在MRS管理界面的HDFS组件中配置OBS的AK、SK信息。
需确保MRS集群和DataArts Studio实例之间网络互通，网络互通需满足如下条件：
- DataArts Studio实例（指DataArts Studio实例中的CDM集群）与MRS集群处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，MRS集群可以访问公网且防火墙规则已开放连接端口。
- DataArts Studio实例（指DataArts Studio实例中的CDM集群）与MRS集群同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但子网或安全组不同，还需配置路由规则及安全组规则，配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。
- 此外，还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同，如果不同，您需要修改工作空间的企业项目。

表1 MRS Hive连接参数
参数名	说明	取值样例
名称	连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。	hivelink
Manager IP	输入或选择Manager IP。通过“选择”来选定已创建的MRS集群，CDM会自动填充下面的鉴权参数。 Hadoop类型为MRS：输入MRS Manager IP。 Hadoop类型为FusionInsight HD：输入FusionInsight HD Manager IP。手动填写IP时请根据场景和顺序填写：填写单个IP时，ip应为MRS集群管理面的浮动IP。填写2个IP时，应填写MRS集群业务面的主节点IP和备节点IP，多个IP之间使用";"分隔。填写3个IP时，应填写MRS集群业务面的主节点IP、备节点IP和MRS集群管理面的浮动IP，多个IP之间使用";"分隔。说明：当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。	127.0.0.1 127.0.0.1;127.0.0.2;127.0.0.3
连接方式	通过JDBC/API的方式去连接MRS集群提交SQL，如果是非MRS集群、非hive3x场景、hive作为源端场景，请使用JDBC模式。Standalone模式不支持API模式。默认场景下API模式仅适用实际执行插入数据SQL，其他SQL提交均通过JDBC模式。	JDBC
认证类型	访问MRS的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。	SIMPLE
Kerberos认证类型	认证类型为KERBEROS时显示该参数。开启Kerberos认证，可以选择是keyTab或者Basic方式进行连接认证。 BASIC：表示使用用户名密码连接。当选择Basic方式认证时：支持作为源端，源端读取方式支持JDBC、不支持HDFS、不支持多并发。不支持作为目的端。 HIVE版本支持HIVE_3_X。 KEYTAB：表示使用keytab文件的方式进行认证。	KEYTAB
Hive版本	Hive的版本。根据服务端Hive版本设置。	HIVE_3_X
用户名	选择KERBEROS鉴权时，需要配置MRS Manager的用户名和密码。从HDFS导出目录时，如果需要创建快照，这里配置的用户需要HDFS系统的管理员权限。如果要创建MRS安全集群的数据连接，不能使用admin用户。因为admin用户是默认的管理页面用户，这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户，然后在创建MRS数据连接时，“用户名”和“密码”填写为新建的MRS用户及其密码。说明：如果CDM集群为2.9.0版本及之后版本，且MRS集群为3.1.0及之后版本，则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接；如果需要对MRS组件的库、表、列进行操作，还需要参考MRS文档添加对应组件的库、表、列操作权限。如果CDM集群为2.9.0之前的版本，或MRS集群为3.1.0之前的版本，则所创建的用户需要具备Manager_administrator或System_administrator权限，才能在CDM创建连接。仅具备Manager_tenant或Manager_auditor权限，无法创建连接。	cdm
密码	访问MRS Manager的用户密码。	-
开启LDAP认证	通过代理连接的时候，此项可配置。当MRS Hive对接外部LDAP开启了LDAP认证时，连接Hive时需要使用LDAP账号与密码进行认证，此时必须开启此参数，否则会连接失败。	否
LDAP用户名	当“开启LDAP认证”参数选择为“是”时，此参数是必选项。填写为MRS Hive开启LDAP认证时配置的用户名。	-
LDAP密码	当“开启LDAP认证”参数选择为“是”时，此参数是必选项。填写为MRS Hive开启LDAP认证时配置的密码。	-
OBS支持	需服务端支持OBS存储。在创建Hive表时，您可以指定将表存储在OBS中。	否
访问标识(AK)	当“OBS支持”参数选择为“是”时，此参数是必选项。请注意，此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限，否则会无法访问OBS并报“403 AccessDenied”错误。您需要先创建当前账号的访问密钥，并获得对应的AK和SK。登录控制台，在用户名下拉列表中选择“我的凭证”。进入“我的凭证”页面，选择“访问密钥 > 新增访问密钥”，如图1所示。图1 新增访问密钥单击“确定”，根据浏览器提示，保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件，即可查看访问密钥（Access Key Id和Secret Access Key）。说明：每个用户仅允许新增两个访问密钥。为保证访问密钥的安全，访问密钥仅在初次生成时自动下载，后续不可再次通过管理控制台界面获取。请在生成后妥善保管。	-
密钥(SK)		-
项目ID	项目ID。	-
运行模式	“HIVE_3_X”版本支持该参数。支持以下模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明： STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。	EMBEDDED
检查Hive JDBC连通性	是否需要测试Hive JDBC连通。	否
是否使用集群配置	您可以通过使用集群配置，简化Hadoop连接参数配置。	否
集群配置名	仅当“是否使用集群配置”为“是”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。	hive_01

单击“显示高级属性”，然后单击“添加”，您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性，可单击属性后的“删除”按钮进行删除。

常见配置举例如下：

connectTimeout=360000与socketTimeout=360000：迁移数据量较大、或通过查询语句检索全表时，会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间（单位为秒），避免超时导致失败。
hive.server2.idle.operation.timeout=360000：为避免Hive迁移作业长时间卡住，可自定义operation超时时间（单位ms）。
hive.storeFormat=textfile：关系型数据库迁移到Hive时，自动建表默认为orc格式。如果需要指定为textfile格式，可增加此配置。parquet格式同理，hive.storeFormat属性值指定为parquet格式即可。
fs.defaultFS=obs://hivedb：对接的MRS Hive为存算分离模式时，可通过此配置获取更佳兼容性。
config.hive.server：指定hiveServer的连接地址和端口，仅支持指定单个节点，格式例如：127.0.0.1:10000。
配置config.hive.server时：
- 支持作为源端，源端读取方式支持JDBC、不支持HDFS、不支持多并发。
- 不支持作为目的端。
- HIVE版本支持HIVE_3_X。

FusionInsight Hive

FusionInsight Hive连接适用于用户在本地数据中心自建的FusionInsight HD，需通过专线连接。

FusionInsight Hive的连接参数如表2所示。

表2 FusionInsight Hive连接参数
参数名	说明	取值样例
名称	连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。	hivelink
Manager IP	FusionInsight Manager平台的地址。	127.0.0.1
Manager端口	FusionInsight Manager平台的端口。	28443
CAS Server端口	与FusionInsight对接的CAS Server的端口。	20009
认证类型	访问集群的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。	SIMPLE
Hive版本	Hive的版本。	HIVE_3_X
用户名	登录FusionInsight Manager平台的用户名。	cdm
密码	FusionInsight Manager平台的密码。	-
OBS支持	需服务端支持OBS存储。在创建Hive表时，您可以指定将表存储在OBS中。	否
访问标识(AK)	当“OBS支持”参数选择为“是”时，此参数是必选项。请注意，此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限，否则会无法访问OBS并报“403 AccessDenied”错误。您需要先创建当前账号的访问密钥，并获得对应的AK和SK。登录控制台，在用户名下拉列表中选择“我的凭证”。进入“我的凭证”页面，选择“访问密钥 > 新增访问密钥”，如图2所示。图2 新增访问密钥单击“确定”，根据浏览器提示，保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件，即可查看访问密钥（Access Key Id和Secret Access Key）。说明：每个用户仅允许新增两个访问密钥。为保证访问密钥的安全，访问密钥仅在初次生成时自动下载，后续不可再次通过管理控制台界面获取。请在生成后妥善保管。	-
密钥(SK)		-
运行模式	“HIVE_3_X”版本支持该参数。支持以下模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明： STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。	EMBEDDED
是否使用集群配置	您可以通过使用集群配置，简化Hadoop连接参数配置。	否
集群配置名	仅当“是否使用集群配置”为“是”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。	hive_01

常见配置举例如下：

connectTimeout=360000与socketTimeout=360000：迁移数据量较大、或通过查询语句检索全表时，会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间（单位为秒），避免超时导致失败。
hive.server2.idle.operation.timeout=360000：为避免Hive迁移作业长时间卡住，可自定义operation超时时间（单位ms）。

Apache Hive

Apache Hive连接适用于用户在本地数据中心或ECS上自建的第三方Hadoop，其中本地数据中心的Hadoop需通过专线连接。

Apache Hive的连接参数如表3所示。

表3 Apache Hive连接参数
参数名	说明	取值样例
名称	连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。	hivelink
URI	NameNode URI地址。	hdfs://hacluster
Hive元数据地址	设置Hive元数据地址，参考 hive.metastore.uris配置项。例如：thrift://host-192-168-1-212:9083	-
认证类型	访问集群的认证类型： SIMPLE：非安全模式选择Simple鉴权。 KERBEROS：安全模式选择Kerberos鉴权。	SIMPLE
Hive版本	Hive的版本。	HIVE_3_X
IP与主机名映射	如果Hadoop配置文件使用主机名，需要配置IP与主机的映射。格式：IP与主机名之间使用空格分隔，多对映射使用分号或回车换行分隔。	-
OBS支持	需服务端支持OBS存储。在创建Hive表时，您可以指定将表存储在OBS中。	否
访问标识(AK)	当“OBS支持”参数选择为“是”时，此参数是必选项。请注意，此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限，否则会无法访问OBS并报“403 AccessDenied”错误。您需要先创建当前账号的访问密钥，并获得对应的AK和SK。登录控制台，在用户名下拉列表中选择“我的凭证”。进入“我的凭证”页面，选择“访问密钥 > 新增访问密钥”，如图3所示。图3 新增访问密钥单击“确定”，根据浏览器提示，保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件，即可查看访问密钥（Access Key Id和Secret Access Key）。说明：每个用户仅允许新增两个访问密钥。为保证访问密钥的安全，访问密钥仅在初次生成时自动下载，后续不可再次通过管理控制台界面获取。请在生成后妥善保管。	-
密钥(SK)		-
运行模式	“HIVE_3_X”版本支持该参数。支持以下模式： EMBEDDED：连接实例与CDM运行在一起，该模式性能较好。 STANDALONE：连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源（MRS、Hadoop或CloudTable），并且既有KERBEROS认证模式又有SIMPLE认证模式，只能使用STANDALONE模式。说明： STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时，存在jar包冲突的情况，这时需要将源端或目的端放在STANDALONE进程里，防止冲突导致迁移失败。	EMBEDDED
是否使用集群配置	您可以通过使用集群配置，简化Hadoop连接参数配置。	否
集群配置名	当“是否使用集群配置”为“是”或“认证类型”为“KERBEROS”时，此参数有效。此参数用于选择用户已经创建好的集群配置。集群配置的创建方法请参见管理集群配置。	hive_01
Hive JDBC连接串	连接Hive JDBC的url，默认使用匿名用户连接。	-

常见配置举例如下：

connectTimeout=360000与socketTimeout=360000：迁移数据量较大、或通过查询语句检索全表时，会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间（单位为秒），避免超时导致失败。
hive.server2.idle.operation.timeout=360000：为避免Hive迁移作业长时间卡住，可自定义operation超时时间（单位ms）。

父主题： 配置连接参数

上一篇：DLI连接参数说明

下一篇：HBase连接参数说明

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试