sparksql 调优 更多内容
  • 配置SparkSQL的分块个数

    参数介绍 参数 描述 默认值 spark.sql.shuffle.partitions SparkSQL在进行shuffle操作时默认的分块数。 200 父主题: Spark SQL性能

    来自:帮助中心

    查看更多 →

  • Spark SQL性能调优

    Spark SQL性能 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调 配置多并发客户端连接JD BCS erver 配置SparkSQL的分块个数 Spark动态分区插入场景内存优化

    来自:帮助中心

    查看更多 →

  • Spark On Hudi性能调优

    Spark On Hudi性能 优化Spark Shuffle参数提升Hudi写入效率 开启spark.shuffle.readHostLocalDisk=true,本地磁盘读取shuffle数据,减少网络传输的开销。 开启spark.io.encryption.enable

    来自:帮助中心

    查看更多 →

  • Spark on Hudi开发规范

    Hudi开发规范 SparkSQL建表参数规范 Spark增量读取Hudi参数规范 Spark异步任务执行表compaction参数设置规范 Spark on Hudi表数据维护规范 Spark并发写Hudi建议 Spark读写Hudi资源配置建议 Spark On Hudi性能 父主题:

    来自:帮助中心

    查看更多 →

  • 创建SparkSQL角色

    创建SparkSQL角色 操作场景 该任务指导 MRS 集群管理员在Manager创建并设置SparkSQL的角色。SparkSQL角色可设置Spark管理员权限以及数据表的数据操作权限。 用户使用Hive并创建数据库需要加入hive组,不需要角色授权。用户在Hive和HDFS中对自

    来自:帮助中心

    查看更多 →

  • SparkSQL权限介绍

    删除、修改视图时,必须要有视图的owner权限。 SparkSQL权限模型 用户使用SparkSQL服务进行SQL操作,必须对SparkSQL数据库和表(含外表和视图)拥有相应的权限。完整的SparkSQL权限模型由元数据权限与HDFS文件权限组成。使用数据库或表时所需要的各种权限都是SparkSQL权限模型中的一种。

    来自:帮助中心

    查看更多 →

  • 创建SparkSQL角色

    创建SparkSQL角色 操作场景 该任务指导MRS集群管理员在Manager创建并设置SparkSQL的角色。SparkSQL角色可设置Spark管理员权限以及数据表的数据操作权限。 用户使用Hive并创建数据库需要加入hive组,不需要角色授权。用户在Hive和HDFS中对自

    来自:帮助中心

    查看更多 →

  • Spark应用开发常见问题

    Spark应用开发常见问题 Spark接口介绍 Spark应用 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出

    来自:帮助中心

    查看更多 →

  • SparkSQL用户权限介绍

    删除、修改视图时,必须要有视图的owner权限。 SparkSQL权限模型 用户使用SparkSQL服务进行SQL操作,必须对SparkSQL数据库和表(含外表和视图)拥有相应的权限。完整的SparkSQL权限模型由元数据权限与HDFS文件权限组成。使用数据库或表时所需要的各种权限都是SparkSQL权限模型中的一种。

    来自:帮助中心

    查看更多 →

  • 运行SparkSql作业

    ”。 “作业类型”选择“SparkSql”并参考表1配置SparkSql作业信息。 图1 添加SparkSql作业 表1 作业配置信息 参数 描述 示例 作业名称 作业名称,只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 sparksql SQL类型 SQL查询语句提交类型。

    来自:帮助中心

    查看更多 →

  • Spark动态分区插入场景内存优化

    ${SOURCE}.store_returns distribute by sr_returned_date_sk; 父主题: Spark SQL性能

    来自:帮助中心

    查看更多 →

  • 动态分区插入场景内存优化

    ${SOURCE}.store_returns distribute by sr_returned_date_sk; 父主题: Spark SQL性能

    来自:帮助中心

    查看更多 →

  • 配置SparkSQL的分块个数

    配置SparkSQL的分块个数 配置场景 SparkSQL在进行shuffle操作时默认的分块数为200。在数据量特别大的场景下,使用默认的分块数就会造成单个数据块过大。如果一个任务产生的单个shuffle数据块大于2G,该数据块在被fetch的时候还会报类似错误: Adjusted

    来自:帮助中心

    查看更多 →

  • 通过Hue执行SparkSQL

    在左侧导航栏单击,然后选择“SparkSql”,进入“SparkSql”。 “SparkSql”支持以下功能: 执行和管理SparkSql语句。 在“保存的查询”中查看当前访问用户已保存的SparkSql语句。 在“查询历史记录”中查看当前访问用户执行过的SparkSql语句。 执行SparkSql语句

    来自:帮助中心

    查看更多 →

  • 配置SparkSQL业务用户权限

    配置SparkSQL业务用户权限 操作场景 SparkSQL业务还可能需要关联使用其他组件,例如Spark on HBase需要HBase权限。以下介绍SparkSQL关联HBase服务的操作。 前提条件 完成Spark客户端的安装,例如安装目录为“/opt/client”。 获

    来自:帮助中心

    查看更多 →

  • 配置SparkSQL业务用户权限

    配置SparkSQL业务用户权限 操作场景 SparkSQL业务还可能需要关联使用其他组件,例如spark on HBase需要HBase权限。以下介绍SparkSQL关联HBase服务的操作。 前提条件 完成Spark客户端的安装,例如安装目录为“/opt/client”。 获

    来自:帮助中心

    查看更多 →

  • SparkSQL建表参数规范

    SparkSQL建表参数规范 规则 建表必须指定primaryKey和preCombineField。 Hudi表提供了数据更新的能力和幂等写入的能力,该能力要求数据记录必须设置主键用来识别重复数据和更新操作。不指定主键会导致表丢失数据更新能力,不指定preCombineField会导致主键重复。

    来自:帮助中心

    查看更多 →

  • SparkSQL读取ORC表报错

    SparkSQL读取ORC表报错 问题现象 Hive创建ORC存储格式的表,用SparkSQL读取该表时报错: 原因分析 该问题为一个开源社区问题:https://issues.apache.org/jira/browse/HIVE-11102,使用开源的hive 1.2.1版本包就有可能触发此问题。

    来自:帮助中心

    查看更多 →

  • 离线Compaction配置

    Compaction作业配置的资源,vcore数至少要大于等于单个分区的桶数,vcore数与内存的比例应为1:4即1个vcore配4G内存。 父主题: Bucket示例

    来自:帮助中心

    查看更多 →

  • 配置SparkSQL支持Hudi Schema演进

    配置SparkSQL支持Hudi Schema演进 Schema演进开启后不能关闭。 本章节仅适用于MRS 3.2.0及之前版本。 使用spark-beeline时,需要登录Manager页面,选择“集群 > 服务 > Spark2x > 配置 > 全部配置”。 在搜索栏中搜索参数“spark

    来自:帮助中心

    查看更多 →

  • MetaStore动态分区数超出阈值导致SQL报错

    执行set hive.exec.max.dynamic.partitions = XXX;命令大“hive.exec.max.dynamic.partitions”参数值。 SparkSQL中需要设置“spark.hadoop.hive.exec.max.dynamic.partitions”参数。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了