Hive连接参数说明
- MRS Hive
 - FusionInsight Hive
 - Apache Hive
    
 
     作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。
 
MRS Hive
用户具有MRS Hive连接的表的访问权限时,才能在字段映射时看到表。
MRS Hive连接适用于华为云上的MapReduce服务。MRS Hive的连接参数如表1所示。
 
   - 
      
当前暂不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群,请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。
 - 新建MRS Hive连接前,需在MRS中添加一个kerberos认证用户并登录MRS管理页面更新其初始密码,然后使用该新建用户创建MRS连接。
 - 如需连接MRS 2.x版本的集群,请先创建2.x版本的CDM集群。CDM 1.8.x版本的集群无法连接MRS 2.x版本的集群。
 - 由于当前CDM Hive连接是从MRS HDFS组件获取core-site.xml配置信息,所以在MRS侧使用的是Hive over OBS场景时,在创建Hive连接前,需要用户在MRS管理界面的HDFS组件中配置OBS的AK、SK信息。
 - 需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件:
      
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。
 - DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
 - 此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。
 
 
| 
        参数名  | 
      
        说明  | 
      
        取值样例  | 
     
|---|---|---|
| 
        名称  | 
      
        连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。  | 
      
        hivelink  | 
     
| 
        Manager IP  | 
      
        输入或选择Manager IP。 通过“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 Hadoop类型为MRS:输入MRS Manager IP。 Hadoop类型为FusionInsight HD:输入FusionInsight HD Manager IP。 手动填写IP时请根据场景和顺序填写: 
  | 
      
       
  | 
     
| 
        认证类型  | 
      
        
        访问MRS的认证类型:
         
  | 
      
        SIMPLE  | 
     
| 
        Hive版本  | 
      
        Hive的版本。根据服务端Hive版本设置。  | 
      
        HIVE_3_X  | 
     
| 
        用户名  | 
      
        选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 
        如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
         
          说明: 
          
       
  | 
      
        cdm  | 
     
| 
        密码  | 
      
        访问MRS Manager的用户密码。  | 
      
        -  | 
     
| 
        开启LDAP认证  | 
      
        通过代理连接的时候,此项可配置。 当MRS Hive对接外部LDAP开启了LDAP认证时,连接Hive时需要使用LDAP账号与密码进行认证,此时必须开启此参数,否则会连接失败。  | 
      
        否  | 
     
| 
        LDAP用户名  | 
      
        当“开启LDAP认证”参数选择为“是”时,此参数是必选项。 填写为MRS Hive开启LDAP认证时配置的用户名。  | 
      
        -  | 
     
| 
        LDAP密码  | 
      
        当“开启LDAP认证”参数选择为“是”时,此参数是必选项。 填写为MRS Hive开启LDAP认证时配置的密码。  | 
      
        -  | 
     
| 
        OBS支持  | 
      
        需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。  | 
      
        否  | 
     
| 
        访问标识(AK)  | 
      
        当“OBS支持”参数选择为“是”时,此参数是必选项。请注意,此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限,否则会无法访问OBS并报“403 AccessDenied”错误。 您需要先创建当前账号的访问密钥,并获得对应的AK和SK。 
  | 
      
        -  | 
     
| 
        密钥(SK)  | 
      
        -  | 
     |
| 
        运行模式  | 
      
        
        “HIVE_3_X”版本支持该参数。支持以下模式:
         
  | 
      
        EMBEDDED  | 
     
| 
        检查Hive JDBC连通性  | 
      
        是否需要测试Hive JDBC连通。  | 
      
        否  | 
     
| 
        是否使用集群配置  | 
      
        您可以通过使用集群配置,简化Hadoop连接参数配置。  | 
      
        否  | 
     
| 
        集群配置名  | 
      
        仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 集群配置的创建方法请参见管理集群配置。  | 
      
        hive_01  | 
     
单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。
- connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
 - hive.server2.idle.operation.timeout=360000:为避免Hive迁移作业长时间卡住,可自定义operation超时时间(单位ms)。
 - hive.storeFormat=textfile:关系型数据库迁移到Hive时,自动建表默认为orc格式。如果需要指定为textfile格式,可增加此配置。parquet格式同理,hive.storeFormat属性值指定为parquet格式即可。
 - fs.defaultFS=obs://hivedb:对接的MRS Hive为存算分离模式时,可通过此配置获取更佳兼容性。
 
FusionInsight Hive
FusionInsight Hive连接适用于用户在本地数据中心自建的FusionInsight HD,需通过专线连接。
FusionInsight Hive的连接参数如表2所示。
| 
        参数名  | 
      
        说明  | 
      
        取值样例  | 
     
|---|---|---|
| 
        名称  | 
      
        连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。  | 
      
        hivelink  | 
     
| 
        Manager IP  | 
      
        FusionInsight Manager平台的地址。  | 
      
        127.0.0.1  | 
     
| 
        Manager端口  | 
      
        FusionInsight Manager平台的端口。  | 
      
        28443  | 
     
| 
        CAS Server端口  | 
      
        与FusionInsight对接的CAS Server的端口。  | 
      
        20009  | 
     
| 
        认证类型  | 
      
        
        访问集群的认证类型:
         
  | 
      
        SIMPLE  | 
     
| 
        Hive版本  | 
      
        Hive的版本。  | 
      
        HIVE_3_X  | 
     
| 
        用户名  | 
      
        登录FusionInsight Manager平台的用户名。  | 
      
        cdm  | 
     
| 
        密码  | 
      
        FusionInsight Manager平台的密码。  | 
      
        -  | 
     
| 
        OBS支持  | 
      
        需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。  | 
      
        否  | 
     
| 
        访问标识(AK)  | 
      
        当“OBS支持”参数选择为“是”时,此参数是必选项。请注意,此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限,否则会无法访问OBS并报“403 AccessDenied”错误。 您需要先创建当前账号的访问密钥,并获得对应的AK和SK。 
  | 
      
        -  | 
     
| 
        密钥(SK)  | 
      
        -  | 
     |
| 
        运行模式  | 
      
        “HIVE_3_X”版本支持该参数。支持以下模式: 
  | 
      
        EMBEDDED  | 
     
| 
        是否使用集群配置  | 
      
        您可以通过使用集群配置,简化Hadoop连接参数配置。  | 
      
        否  | 
     
| 
        集群配置名  | 
      
        仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 集群配置的创建方法请参见管理集群配置。  | 
      
        hive_01  | 
     
单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。
- connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
 - hive.server2.idle.operation.timeout=360000:为避免Hive迁移作业长时间卡住,可自定义operation超时时间(单位ms)。
 
Apache Hive
Apache Hive连接适用于用户在本地数据中心或ECS上自建的第三方Hadoop,其中本地数据中心的Hadoop需通过专线连接。
Apache Hive的连接参数如表3所示。
| 
        参数名  | 
      
        说明  | 
      
        取值样例  | 
     
|---|---|---|
| 
        名称  | 
      
        连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。  | 
      
        hivelink  | 
     
| 
        URI  | 
      
        NameNode URI地址。  | 
      
        hdfs://hacluster  | 
     
| 
        Hive元数据地址  | 
      
        设置Hive元数据地址,参考 hive.metastore.uris配置项。例如:thrift://host-192-168-1-212:9083  | 
      
        -  | 
     
| 
        认证类型  | 
      
        
        访问集群的认证类型:
         
  | 
      
        SIMPLE  | 
     
| 
        Hive版本  | 
      
        Hive的版本。  | 
      
        HIVE_3_X  | 
     
| 
        IP与主机名映射  | 
      
        如果Hadoop配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。  | 
      
        -  | 
     
| 
        OBS支持  | 
      
        需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。  | 
      
        否  | 
     
| 
        访问标识(AK)  | 
      
        当“OBS支持”参数选择为“是”时,此参数是必选项。请注意,此处AK/SK对应的账号应具备OBS Buckets Viewer系统权限,否则会无法访问OBS并报“403 AccessDenied”错误。 您需要先创建当前账号的访问密钥,并获得对应的AK和SK。 
  | 
      
        -  | 
     
| 
        密钥(SK)  | 
      
        -  | 
     |
| 
        运行模式  | 
      
        “HIVE_3_X”版本支持该参数。支持以下模式: 
  | 
      
        EMBEDDED  | 
     
| 
        是否使用集群配置  | 
      
        您可以通过使用集群配置,简化Hadoop连接参数配置。  | 
      
        否  | 
     
| 
        集群配置名  | 
      
        当“是否使用集群配置”为“是”或“认证类型”为“KERBEROS”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 集群配置的创建方法请参见管理集群配置。  | 
      
        hive_01  | 
     
| 
        Hive JDBC连接串  | 
      
        连接Hive JDBC的url,默认使用匿名用户连接。  | 
      
        -  | 
     
单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按钮进行删除。
- connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
 - hive.server2.idle.operation.timeout=360000:为避免Hive迁移作业长时间卡住,可自定义operation超时时间(单位ms)。
 
  
    