创建Hive用户自定义函数

当Hive的内置函数不能满足需要时，可以通过编写用户自定义函数UDF（User-Defined Functions）插入自己的处理代码并在查询中使用它们。

按实现方式，UDF分如下分类：

普通的UDF，用于操作单个数据行，且产生一个数据行作为输出。
用户定义聚集函数UDAF（User-Defined Aggregating Functions），用于接受多个输入数据行，并产生一个输出数据行。
用户定义表生成函数UDTF（User-Defined Table-Generating Functions），用于操作单个输入行，产生多个输出行。

按使用方法，UDF有如下分类：

临时函数，只能在当前会话使用，重启会话后需要重新创建。
永久函数，可以在多个会话中使用，不需要每次创建。

用户自定义函数需要用户控制函数中变量的内存、线程等资源的占用，如果控制不当可能会导致内存溢出、CPU使用高等问题。
若集群开启了Ranger鉴权，需要关闭Ranger鉴权后才能使用Python的UDF函数。

下面以编写一个AddDoublesUDF为例，说明UDF的编写和使用方法。

功能介绍

AddDoublesUDF主要用来对两个及多个浮点数进行相加，在该样例中可以掌握如何编写和使用UDF。

一个普通UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF”。
一个普通UDF必须至少实现一个evaluate()方法，evaluate函数支持重载。
开发自定义函数需要在工程中添加“hive-exec-*.jar”依赖包，可从Hive服务的安装目录下获取，例如在“${BIGDATA_HOME}/components/FusionInsight_HD_*/Hive/disaster/plugin/lib/”目录下获取。

样例代码

以下为UDF示例代码：

其中，xxx通常为程序开发的组织名称。

package com.xxx.bigdata.hive.example.udf;
import org.apache.hadoop.hive.ql.exec.UDF;

public class AddDoublesUDF extends UDF { 
 public Double evaluate(Double... a) { 
    Double total = 0.0; 
    // 处理逻辑部分. 
    for (int i = 0; i < a.length; i++) 
      if (a[i] != null) 
        total += a[i]; 
    return total; 
  } 
}

如何使用

在客户端安装节点，把以上程序打包成AddDoublesUDF.jar，并上传到HDFS指定目录下（例如“/user/hive_examples_jars”）。

创建函数的用户与使用函数的用户都需要具有该文件的可读权限。

示例语句：

hdfs dfs -put ./hive_examples_jars /user/hive_examples_jars

hdfs dfs -chmod 777 /user/hive_examples_jars
判断集群的认证模式。
- 安全模式，需要使用一个具有Hive管理权限的用户登录beeline客户端，执行如下命令：
  kinit Hive业务用户
  
  beeline
  
  set role admin;
- 普通模式，执行如下命令：
  beeline -n Hive业务用户
在Hive Server中定义该函数，以下语句用于创建永久函数：

CREATE FUNCTION addDoubles AS 'com.xxx.bigdata.hive.example.udf.AddDoublesUDF' using jar 'hdfs://hacluster/user/hive_examples_jars/AddDoublesUDF.jar';

其中addDoubles是该函数的别名，用于SELECT查询中使用；xxx通常为程序开发的组织名称。

以下语句用于创建临时函数：

CREATE TEMPORARY FUNCTION addDoubles AS 'com.xxx.bigdata.hive.example.udf.AddDoublesUDF' using jar 'hdfs://hacluster/user/hive_examples_jars/AddDoublesUDF.jar';
- addDoubles是该函数的别名，用于SELECT查询中使用。
- 关键字TEMPORARY说明该函数只在当前这个Hive Server的会话过程中定义使用。
在Hive Server中使用该函数，执行SQL语句：

SELECT addDoubles(1,2,3);

若重新连接客户端再使用函数出现[Error 10011]的错误，可执行reload function;命令后再使用该函数。
在Hive Server中删除该函数，执行SQL语句：

DROP FUNCTION addDoubles;

扩展应用

无

父主题： 使用Hive

上一篇：Hive支持的传统关系型数据库语法

下一篇：beeline可靠性增强特性介绍

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消