通过Hue执行SparkSQL
操作场景
用户需要使用图形化界面在集群中执行SparkSql语句时,可以通过Hue完成任务。
配置Spark2x
使用SparkSql编辑器之前需要先修改Spark2x配置。
- 进入Spark2x的全部配置页面,具体操作请参考修改集群服务配置参数。
- 设置Spark2x多实例模式,搜索并修改Spark2x服务的以下参数:
参数名称
值
spark.thriftserver.proxy.enabled
false
spark.scheduler.allocation.file
#{conf_dir}/fairscheduler.xml
- 进入JDBCServer2x自定义界面,在“spark.core-site.customized.configs”参数内,添加如下两个自定义项:
表1 自定义参数 名称
值
hadoop.proxyuser.hue.groups
*
hadoop.proxyuser.hue.hosts
*
- 保存配置,重启Spark2x服务。
访问编辑器
- 访问Hue WebUI,请参考访问Hue WebUI界面。
- 在左侧导航栏单击,然后选择“SparkSql”,进入“SparkSql”。
“SparkSql”支持以下功能:
- 执行和管理SparkSql语句。
- 在“保存的查询”中查看当前访问用户已保存的SparkSql语句。
- 在“查询历史记录”中查看当前访问用户执行过的SparkSql语句。
执行SparkSql语句
- 在“Database”右侧下拉列表选择一个SparkSql中的数据库,默认数据库为“default”。
系统将自动显示数据库中的所有表。可以输入表名关键字,系统会自动搜索包含此关键字的全部表。
图1 选择数据库
- 单击指定的表名,可以显示表中所有的列。
光标移动到表所在的行,单击 可以查看列的详细信息。
- 在SparkSql语句编辑区输入查询语句。
单击后的三角并选择“解释”,编辑器将分析输入的查询语句是否有语法错误以及执行计划,如果存在语法错误则显示“Error while compiling statement”。
- 单击开始执行SparkSql语句。
图2 执行语句
查看执行结果
- 在“SparkSql”的执行区,默认显示“查询历史记录”。
- 单击结果查看已执行语句的执行结果。
管理查询语句
- 单击“保存的查询”。
- 单击一条已保存的语句,系统会自动将其填充至编辑区中。