sparksql 调优 更多内容
  • Spark2x开源新特性说明

    Spark2x版本相对于Spark 1.5版本新增了一些开源特性。 具体特性或相关概念如下: DataSet,详见SparkSQL和DataSet原理。 Spark SQL Native DDL/DML,详见SparkSQL和DataSet原理。 SparkSession,详见SparkSession原理。 Structured

    来自:帮助中心

    查看更多 →

  • 读取Hudi mor表视图

    同步Hive后hive表中多出两张表分别为${table_name}_rt和${table_name}_ro。 实时视图读取(Hive,SparkSQL为例):直接读取Hive里面存储的后缀为_rt的hudi表即可。 select count(*) from ${table_name}_rt;

    来自:帮助中心

    查看更多 →

  • 读取Hudi mor表视图

    同步Hive后hive表中多出两张表分别为${table_name}_rt,和${table_name}_ro。 实时视图读取(Hive,SparkSQL为例):直接读取Hive里面存储的后缀为_rt的hudi表即可。 select count(*) from ${table_name}_rt;

    来自:帮助中心

    查看更多 →

  • SparkSQL访问Hive分区表启动Job前耗时较长如何处理?

    SparkSQL访问Hive分区表启动Job前耗时较长如何处理? 问题背景 使用SparkSql访问Hive的一个数据存放于OBS的一个分区表,但是运行速度却很慢,并且会大量调用OBS的查询接口。 SQL样例: select a,b,c from test where b=xxx

    来自:帮助中心

    查看更多 →

  • Spark SQL样例程序(Python)

    SQL样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见SparkSQLPythonExample: # -*- coding:utf-8 -*- import sys from pyspark.sql

    来自:帮助中心

    查看更多 →

  • Spark SQL样例程序(Python)

    SQL样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见SparkSQLPythonExample: # -*- coding:utf-8 -*- import sys from pyspark.sql

    来自:帮助中心

    查看更多 →

  • Spark SQL样例程序(Python)

    SQL样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见SparkSQLPythonExample: # -*- coding:utf-8 -*- import sys from pyspark.sql

    来自:帮助中心

    查看更多 →

  • Spark SQL样例程序(Python)

    SQL样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见SparkSQLPythonExample: # -*- coding:utf-8 -*- import sys from pyspark.sql

    来自:帮助中心

    查看更多 →

  • 读取Hudi数据概述

    增量视图 Hive Y Y Spark(SparkSQL) Y Y Spark(SparkDataSource API) Y Y 表2 mor表 查询引擎 实时视图 增量视图 读优化视图 Hive Y Y Y Spark(SparkSQL) Y Y Y Spark(SparkDataSource

    来自:帮助中心

    查看更多 →

  • 读取Hudi数据概述

    Hive Y Y Spark(SparkSQL) Y Y Spark(SparkDataSource API) Y Y HetuEngine Y N 表2 mor表 查询引擎 实时视图 增量视图 读优化视图 Hive Y Y Y Spark(SparkSQL) Y Y Y Spark(SparkDataSource

    来自:帮助中心

    查看更多 →

  • Spark同步HBase数据到CarbonData开发思路

    keytab、krb5.conf 两个文件上传客户端所在 服务器 上。 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中测Spark应用。 编译打包前,样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如:“/opt/user

    来自:帮助中心

    查看更多 →

  • Spark JDBCServer接口介绍

    JD BCS erver是一个JDBC接口,用户可以通过JDBC连接JDB CS erver来访问SparkSQL的数据。JDBCServer在启动的时候,会启动一个sparkSQL的应用程序,而通过JDBC连接进来的客户端共同分享这个sparkSQL应用程序的资源,也就是说不同的用户之间可以共享数据。JDBCSe

    来自:帮助中心

    查看更多 →

  • 查询脚本信息

    点号,且长度小于等于128个字符。脚本名称不能重复。 type 是 String 脚本类型,包含: FlinkSQL DLI SQL SparkSQL HiveSQL DWSSQL RDSSQL Shell PRESTO ClickHouseSQL HetuEngineSQL PYTHON

    来自:帮助中心

    查看更多 →

  • Spark2x样例工程介绍

    sparknormal-examples/SparkSQLJavaExample Spark SQL任务的Java/Python/Scala示例程序。 本工程应用程序实现从HDFS上读取文本数据并计算分析。 sparknormal-examples/SparkSQLPythonExample

    来自:帮助中心

    查看更多 →

  • Spark JDBCServer接口介绍

    JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServer来访问SparkSQL的数据。JDBCServer在启动的时候,会启动一个sparkSQL的应用程序,而通过JDBC连接进来的客户端共同分享这个sparkSQL应用程序的资源,也就是说不同的用户之间可以共享数据。JDBCSe

    来自:帮助中心

    查看更多 →

  • 查询脚本列表

    点号,且长度小于等于128个字符。脚本名称不能重复。 type 是 String 脚本类型,包含: FlinkSQL DLISQL SparkSQL HiveSQL DWSSQL RDSSQL Shell PRESTO ClickHouseSQL HetuEngineSQL PYTHON

    来自:帮助中心

    查看更多 →

  • Hudi Schema演进

    Hudi Schema演进 Schema演进介绍 配置SparkSQL支持Hudi Schema演进 Hudi Schema演进及语法说明 Hudi Schema演进并发说明 父主题: 使用Hudi

    来自:帮助中心

    查看更多 →

  • 运行MRS作业

    运行 MRS 作业 运行MapReduce作业 运行SparkSubmit作业 运行HiveSql作业 运行SparkSql作业 运行Flink作业 运行HadoopStream作业 父主题: 提交MRS作业

    来自:帮助中心

    查看更多 →

  • Spark SQL样例程序开发思路

    keytab、krb5.conf 两个文件上传客户端所在服务器上。 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中测Spark应用。 编译打包前,样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如:“/opt/female/user

    来自:帮助中心

    查看更多 →

  • Spark JDBCServer接口介绍

    JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServer来访问SparkSQL的数据。JDBCServer在启动的时候,会启动一个sparkSQL的应用程序,而通过JDBC连接进来的客户端共同分享这个sparkSQL应用程序的资源,也就是说不同的用户之间可以共享数据。JDBCSe

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    JobHistory Server 用于监控正在运行的或者历史的Spark作业在Spark框架各个阶段的细节以及提供日志显示,帮助用户更细粒度地去开发、配置和作业。 Spark SQL常用概念 DataSet DataSet是一个由特定域的对象组成的强类型集合,可通过功能或关系操作并行转换其中的对象。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了