更新时间:2024-10-28 GMT+08:00

Hive常用配置参数

Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。

本章节主要介绍Hive常用参数。

操作步骤

  1. 登录FusionInsight Manager,选择“集群 > 服务 > Hive > 配置 > 全部配置”。
  2. 在右上角搜索框中搜索对应的参数名称,即可修改相应参数值,Hive常用参数如表1所示。

    表1 Hive常用参数说明

    参数名称

    参数说明

    默认值

    hive.auto.convert.join

    Hive基于输入文件大小将普通join转为mapjoin的开关,取值范围为:

    • true
    • false
    说明:

    在使用Hive进行联表查询,且关联的表无大小表的分别(小表数据<24MB)时,建议将此参数值修改为“false”,如果此时将此参数设置为true,执行联表查询时无法生成新的mapjoin。

    true

    hive.default.fileformat

    Hive使用的默认文件格式,支持TextFil、SequenceFile、RCFile、ORC和parquet格式。

    RCFile

    hive.exec.reducers.max

    Hive提交的MapReduce任务中Reducer的最大个数。

    999

    hive.server2.thrift.max.worker.threads

    HiveServer内部线程池最大能启动的线程数量。

    1000

    hive.server2.thrift.min.worker.threads

    HiveServer内部线程池初始化时启动的线程数量。

    5

    hive.hbase.delete.mode.enabled

    从Hive删除HBase记录的功能开关。如果启用,用户可以使用remove table xx where xxx命令从Hive中删除HBase记录。

    • true:支持从Hive删除HBase记录。
    • false:不支持从Hive删除HBase记录。

    true

    hive.metastore.server.min.threads

    MetaStore启动的用于处理连接的线程数,如果超过设置的值之后,MetaStore就会一直维护不低于设定值的线程数,即常驻MetaStore线程池的线程会维护在指定值之上。

    200

    hive.server2.enable.doAs

    HiveServer2在与其他服务(如Yarn、HDFS等)会话时是否模拟客户端用户。如果将此配置项从“false”修改为“true”,会导致只有列权限的用户访问相应表权限缺失。

    true

  3. 单击“保存”,保存配置。
  4. 单击“实例”,勾选对应的实例,选择“更多 > 重启实例”,使配置生效。