在Spark SQL作业中使用UDF
操作场景
DLI支持用户使用Hive UDF(User Defined Function,用户定义函数)进行数据查询等操作,UDF只对单行数据产生作用,适用于一进一出的场景。
约束限制
环境准备
在进行UDF开发前,请准备以下开发环境。
准备项 |
说明 |
---|---|
操作系统 |
Windows系统,支持Windows7以上版本。 |
安装JDK |
JDK使用1.8版本。 |
安装和配置IntelliJ IDEA |
IntelliJ IDEA为进行应用开发的工具,版本要求使用2019.1或其他兼容版本。 |
安装Maven |
开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 |
开发流程
序号 |
阶段 |
操作界面 |
说明 |
---|---|---|---|
1 |
新建Maven工程,配置pom文件 |
IntelliJ IDEA |
参考操作步骤说明,编写UDF函数代码。 |
2 |
编写UDF函数代码 |
||
3 |
调试,编译代码并导出Jar包 |
||
4 |
上传Jar包到OBS |
OBS控制台 |
将生成的UDF函数Jar包文件上传到OBS目录下。 |
5 |
创建DLI的UDF函数 |
DLI控制台 |
在DLI控制台的SQL作业管理界面创建使用的UDF函数。 |
6 |
验证和使用DLI的UDF函数 |
DLI控制台 |
在DLI作业中使用创建的UDF函数。 |
操作步骤
- 新建Maven工程,配置pom文件。以下通过IntelliJ IDEA 2020.2工具操作演示。
- 打开IntelliJ IDEA,选择“File > New > Project”。
图2 新建Project
- 选择Maven,Project SDK选择1.8,单击“Next”。
图3 选择Maven
- 定义样例工程名和配置样例工程存储路径,单击“Finish”完成工程创建。
图4 创建工程
- 在pom.xml文件中添加如下配置。
<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version> </dependency> </dependencies>
图5 pom文件中添加配置
- 在工程路径的“src > main > java”文件夹上鼠标右键,选择“New > Package”,新建Package和类文件。
图6 新建Package和类文件
Package根据需要定义,本示例定义为:“com.huawei.demo”,完成后回车。
图7 自定义Package
在包路径下新建Java Class文件,本示例定义为:SumUdfDemo。
图8 新建Java Class文件
- 打开IntelliJ IDEA,选择“File > New > Project”。
- 编写UDF函数代码。UDF函数实现,主要注意以下几点:
- 自定义UDF需要继承org.apache.hadoop.hive.ql.exec.UDF。
- 需要实现evaluate函数,evaluate函数支持重载。
详细UDF函数实现,可以参考如下样例代码:
package com.huawei.demo; import org.apache.hadoop.hive.ql.exec.UDF; public class SumUdfDemo extends UDF { public int evaluate(int a, int b) { return a + b; } }
- 编写调试完成代码后,通过IntelliJ IDEA工具编译代码并导出Jar包。
- 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。
Jar包文件上传的OBS桶所在的区域需与DLI的队列区域相同,不可跨区域执行操作。
- (可选)可以将Jar包文件上传到DLI的程序包管理中,方便后续统一管理。
- 登录DLI管理控制台,单击“数据管理 > 程序包管理”。
- 在“程序包管理”页面,单击右上角的“创建”创建程序包。
- 在“创建程序包”对话框,配置以下参数。
- 包类型:选择“JAR”。
- OBS路径:程序包所在的OBS路径。
- 分组设置和组名称根据情况选择设置,方便后续识别和管理程序包。
- 单击“确定”,完成创建程序包。
- 创建UDF函数。
- 登录DLI管理控制台,单击“SQL编辑器”,执行引擎选择“spark”,选择已创建的SQL队列和数据库。
图11 选择队列和数据库
- 在SQL编辑区域输入下列命令创建UDF函数,单击“执行”提交创建。
CREATE FUNCTION TestSumUDF AS 'com.huawei.demo.SumUdfDemo' using jar 'obs://dli-test-obs01/MyUDF-1.0-SNAPSHOT.jar';
- 登录DLI管理控制台,单击“SQL编辑器”,执行引擎选择“spark”,选择已创建的SQL队列和数据库。
- 重启原有SQL队列,使得创建的Function生效。
- 登录数据湖探索管理控制台,选择“队列管理”,在对应“SQL队列”类型作业的“操作”列,单击“重启”。
- 在“重启队列”界面,选择“确定”完成队列重启。
- 使用UDF函数。
在查询语句中使用6中创建的UDF函数:
select TestSumUDF(1,2);
图12 执行结果
- (可选)删除UDF函数。
Drop FUNCTION TestSumUDF;