文档首页> MapReduce服务 MRS> 开发指南（普通版_2.x及之前）> Hive应用开发> 开发规范> 规则

更新时间：2022-07-19 GMT+08:00

规则

Hive JDBC驱动的加载

客户端程序以JDBC的形式连接HiveServer时，需要首先加载Hive的JDBC驱动类org.apache.hive.jdbc.HiveDriver。

故在客户端程序的开始，必须先使用当前类加载器加载该驱动类。

如果classpath下没有相应的jar包，则客户端程序抛出Class Not Found异常并退出。

如下：

Class.forName("org.apache.hive.jdbc.HiveDriver").newInstance();

获取数据库连接

使用JDK的驱动管理类java.sql.DriverManager来获取一个Hive的数据库连接。

Hive的数据库URL为url="jdbc:hive2://xxx.xxx.xxx.xxx:2181,xxx.xxx.xxx.xxx:2181,xxx.xxx.xxx.xxx:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver;sasl.qop=auth-conf;auth=KERBEROS;principal=hive/hadoop.hadoop.com@HADOOP.COM;user.principal=hive/hadoop.hadoop.com;user.keytab=conf/hive.keytab";

以上已经经过安全认证，所以Hive数据库的用户名和密码为null或者空。

如下：

// 建立连接

connection = DriverManager.getConnection(url, "", "");

执行HQL

执行HQL，注意HQL不能以";"结尾。

正确示例：

String sql = "SELECT COUNT(*) FROM employees_info";
Connection connection = DriverManager.getConnection(url, "", "");
PreparedStatement statement = connection.prepareStatement(sql);
resultSet = statement.executeQuery();

错误示例：

String sql = "SELECT COUNT(*) FROM employees_info;";
Connection connection = DriverManager.getConnection(url, "", "");
PreparedStatement statement = connection.prepareStatement(sql);
resultSet = statement.executeQuery();

关闭数据库连接

客户端程序在执行完HQL之后，注意关闭数据库连接，以免内存泄露，同时这是一个良好的编程习惯。

需要关闭JDK的两个对象statement和connection。

如下：

finally {
            if (null != statement) {
                statement.close();
            }
            
            // 关闭JDBC连接
            if (null != connection) {
                connection.close();
            }
        }

HQL语法规则之判空

判断字段是否为“空”，即没有值，使用“is null”；判断不为空，即有值，使用“is not null”。

要注意的是，在HQL中String类型的字段若是空字符串，即长度为0，那么对它进行IS NULL的判断结果是False。此时应该使用“col = '' ”来判断空字符串；使用“col != '' ”来判断非空字符串。

正确示例：

select * from default.tbl_src where id is null;
select * from default.tbl_src where id is not null;
select * from default.tbl_src where name = '';
select * from default.tbl_src where name != '';

错误示例：

select * from default.tbl_src where id = null;
select * from default.tbl_src where id != null;
select * from default.tbl_src where name is null;
select * from default.tbl_src where name is not null;注：表tbl_src的id字段为Int类型，name字段为String类型。

客户端配置参数需要与服务端保持一致

当集群的Hive、YARN、HDFS服务端配置参数发生变化时，客户端程序对应的参数会被改变，用户需要重新审视在配置参数变更之前提交到HiveServer的配置参数是否和服务端配置参数一致，如果不一致，需要用户在客户端重新调整并提交到HiveServer。例如下面的示例中，如果修改了集群中的YARN配置参数时，Hive客户端、示例程序都需要审视并修改之前已经提交到HiveServer的配置参数。

初始状态

集群YARN的参数配置如下：

mapreduce.reduce.java.opts=-Xmx2048M

客户端的参数配置如下：

mapreduce.reduce.java.opts=-Xmx2048M

集群YARN修改后，参数配置如下：

mapreduce.reduce.java.opts=-Xmx1024M

如果此时客户端程序不做调整修改，则还是以客户端参数有效，会导致reducer内存不足而使MR运行失败。

多线程安全登录方式

如果有多线程进行login的操作，当应用程序第一次登录成功后，所有线程再次登录时应该使用relogin的方式。

login的代码样例：

  private Boolean login(Configuration conf){
    boolean flag = false;
    UserGroupInformation.setConfiguration(conf);
    
    try {
      UserGroupInformation.loginUserFromKeytab(conf.get(PRINCIPAL), conf.get(KEYTAB));
      System.out.println("UserGroupInformation.isLoginKeytabBased(): " +UserGroupInformation.isLoginKeytabBased());
      flag = true;
    } catch (IOException e) {
      e.printStackTrace();
    }
    return flag;
    
  }

relogin的代码样例：

public Boolean relogin(){
        boolean flag = false;
        try {
            
          UserGroupInformation.getLoginUser().reloginFromKeytab();
          System.out.println("UserGroupInformation.isLoginKeytabBased(): " +UserGroupInformation.isLoginKeytabBased());
          flag = true;
        } catch (IOException e) {
            e.printStackTrace();
        }
        return flag;
    }

使用WebHCat的REST接口以Streaming方式提交MR任务的前置条件

本接口需要依赖hadoop的streaming包，在以Streaming方式提交MR任务给WebHCat前，需要将“hadoop-streaming-x.x.x.jar”包上传到HDFS的指定路径下“hdfs:///apps/templeton/hadoop-streaming-xxx.jar”，具体步骤如下。

登录到安装有客户端和Hive服务的节点上，以客户端安装路径为“/opt/client”为例。
source /opt/client/bigdata_env
使用kinit登录集群的人机用户或者机机用户。
执行如下命令将streaming包放到hdfs的/apps/templeton下。
- 对于MRS 1.9.2及之后的版本，执行如下命令。
  hdfs dfs -put /opt/Bigdata/MRS_x.x.x/install/FusionInsight-Hadoop-x.x.x/hadoop/share/hadoop/tools/lib/hadoop-streaming-x.x.x-mrs-x.x.jar /apps/templeton
  
  其中，/apps/templeton/需要根据不同的实例进行修改，默认实例使用/apps/templeton/，Hive1实例使用/apps1/templeton/，以此类推。

例如：提交streaming的mr作业。

创建hdfs目录。
hdfs dfs -mkdir /user/root/input/
将自定义数据文件new.txt放到hdfs目录上。
hdfs dfs -put new.txt /user/root/input/
提交mr作业。
- 对于MRS 1.9.2及之后的版本，执行如下命令。
  $HADOOP_HOME/bin/hadoop jar /opt/client/HDFS/hadoop/share/hadoop/tools/lib/hadoop-streaming-x.x.x-mrs-x.x.jar -input input/new.txt -output output -mapper 'cut -f 2 -d ,' -reducer 'uniq'
  
  其中，参数含义如下：
  - -output output的后一个output为生成文件存放的目录，命令执行后会自动创建，命令执行前需保证/user/root/目录下无此目录，否则报目录存在错误。
  - 以上命令中所用的hadoop-streaming版本jar包请根据集群中提供的实际jar包名称来修改。
  - -mapper、-reducer后的参数用户可自定义。

避免对同一张表同时进行读写操作

目前的版本中，Hive不支持并发操作，需要避免对同一张表同时进行读写操作，否则会出现查询结果不准确，甚至任务失败的情况。

分桶表不支持insert into

分桶表（bucket table）不支持insert into，仅支持insert overwrite，否则会导致文件个数与桶数不一致。

使用WebHCat的部分REST接口的前置条件

WebHCat的部分REST接口使用依赖于MapReduce的JobHistoryServer实例，具体接口如下：

mapreduce/jar(POST)
mapreduce/streaming(POST)
hive(POST)
jobs(GET)
jobs/:jobid(GET)
jobs/:jobid(DELETE)

Hive授权说明

Hive授权（数据库、表或者视图）推荐通过Manager授权界面进行授权，不推荐使用命令行授权，除了“alter databases databases_name set owner='user_name'”场景以外。

不允许创建Hive on HBase的分区表

Hive on HBase表将实际数据存储在HBase上。由于HBase会将表划分为多个分区，将分区散列在RegionServer上，因此不允许在Hive中创建Hive on HBase分区表。

Hive on HBase表不支持INSERT OVERWRITE

HBase中使用rowkey作为一行记录的唯一标识。在插入数据时，如果rowkey相同，则HBase会覆盖该行的数据。如果在Hive中对一张Hive on HBase表执行INSERT OVERWRITE，会将相同rowkey的行进行覆盖，不相关的数据不会被覆盖。

父主题： 开发规范

上一篇：开发规范

下一篇：建议

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

规则