通过Hue执行SparkSQL

更新时间：2024-08-01 GMT+08:00

查看PDF

用户需要使用图形化界面在集群中执行SparkSql语句时，可以通过Hue完成任务。

使用SparkSql编辑器之前需要先修改Spark2x配置。

设置Spark2x多实例模式，搜索并修改Spark2x服务的以下参数：

参数名称	值
spark.thriftserver.proxy.enabled	false
spark.scheduler.allocation.file	#{conf_dir}/fairscheduler.xml

进入JDBCServer2x自定义界面，在“spark.core-site.customized.configs”参数内，添加如下两个自定义项：

表1 自定义参数
名称	值
hadoop.proxyuser.hue.groups	*
hadoop.proxyuser.hue.hosts	*

在“Database”右侧下拉列表选择一个SparkSql中的数据库，默认数据库为“default”。

系统将自动显示数据库中的所有表。可以输入表名关键字，系统会自动搜索包含此关键字的全部表。

图1 选择数据库
单击指定的表名，可以显示表中所有的列。

光标移动到表所在的行，单击可以查看列的详细信息。
在SparkSql语句编辑区输入查询语句。

单击后的三角并选择“解释”，编辑器将分析输入的查询语句是否有语法错误以及执行计划，如果存在语法错误则显示“Error while compiling statement”。
单击开始执行SparkSql语句。

图2 执行语句
说明：
- 如果希望下次继续使用已输入的SparkSql语句，请单击保存。
- 高级查询配置：
  单击右上角的，对文件、功能、设置等信息进行配置。
- 查看快捷键：
  单击右上角的，可查看语法和键盘快捷方式信息。
- 格式化SparkSql语句，请单击后的三角选择“格式”
- 删除已输入的SparkSql语句，请单击后的三角选择“清除”
- 查看历史：
  单击“查询历史记录”，可查看SparkSql运行情况，支持显示所有语句或只显示保存的语句的运行情况。历史记录存在多个结果时，可以在输入框使用关键字进行搜索。