更新时间:2024-08-01 GMT+08:00
分享

通过Hue执行SparkSQL

操作场景

用户需要使用图形化界面在集群中执行SparkSql语句时,可以通过Hue完成任务。

配置Spark2x

使用SparkSql编辑器之前需要先修改Spark2x配置。

  1. 进入Spark2x的全部配置页面,具体操作请参考修改集群服务配置参数
  2. 设置Spark2x多实例模式,搜索并修改Spark2x服务的以下参数:

    参数名称

    spark.thriftserver.proxy.enabled

    false

    spark.scheduler.allocation.file

    #{conf_dir}/fairscheduler.xml

  3. 进入JDBCServer2x自定义界面,在“spark.core-site.customized.configs”参数内,添加如下两个自定义项:

    表1 自定义参数

    名称

    hadoop.proxyuser.hue.groups

    *

    hadoop.proxyuser.hue.hosts

    *

  4. 保存配置,重启Spark2x服务。

访问编辑器

  1. 访问Hue WebUI,请参考访问Hue WebUI界面
  2. 在左侧导航栏单击,然后选择“SparkSql”,进入“SparkSql”

    “SparkSql”支持以下功能:

    • 执行和管理SparkSql语句。
    • 在“保存的查询”中查看当前访问用户已保存的SparkSql语句。
    • 在“查询历史记录”中查看当前访问用户执行过的SparkSql语句。

执行SparkSql语句

  1. “Database”右侧下拉列表选择一个SparkSql中的数据库,默认数据库为“default”

    系统将自动显示数据库中的所有表。可以输入表名关键字,系统会自动搜索包含此关键字的全部表。

    图1 选择数据库

  2. 单击指定的表名,可以显示表中所有的列。

    光标移动到表所在的行,单击 可以查看列的详细信息。

  3. 在SparkSql语句编辑区输入查询语句。

    单击后的三角并选择“解释”,编辑器将分析输入的查询语句是否有语法错误以及执行计划,如果存在语法错误则显示“Error while compiling statement”

  4. 单击开始执行SparkSql语句。

    图2 执行语句
    • 如果希望下次继续使用已输入的SparkSql语句,请单击保存。
    • 高级查询配置:

      单击右上角的,对文件、功能、设置等信息进行配置。

    • 查看快捷键:

      单击右上角的,可查看语法和键盘快捷方式信息。

    • 格式化SparkSql语句,请单击后的三角选择“格式”
    • 删除已输入的SparkSql语句,请单击后的三角选择“清除”
    • 查看历史:

      单击“查询历史记录”,可查看SparkSql运行情况,支持显示所有语句或只显示保存的语句的运行情况。历史记录存在多个结果时,可以在输入框使用关键字进行搜索。

查看执行结果

  1. “SparkSql”的执行区,默认显示“查询历史记录”
  2. 单击结果查看已执行语句的执行结果。

管理查询语句

  1. 单击“保存的查询”
  2. 单击一条已保存的语句,系统会自动将其填充至编辑区中。

相关文档