华为云

面向未来的智能世界,数字化是企业发展的必由之路。数字化成功的关键是以云原生的思维践行云原生,全数字化、全云化、AI驱动,一切皆服务。

华为云将持续创新,携手客户、合作伙伴和开发者,致力于让云无处不在,让智能无所不及,共建智能世界云底座。

 
 

    华为云与spark 更多内容
  • Spark任务提交失败

    Spark任务提交失败 问题现象 Spark提交任务直接提示无法提交任务。 Spark提示无法获取到yarn的相关jar包。 提示多次提交一个文件。 原因分析 问题1: 最常见的无法提交任务原因是认证失败, 还有可能是参数设置不正确。 问题2: 集群默认会把分析节点的hadoop

    来自:帮助中心

    查看更多 →

  • Spark HA方案介绍

    Spark HA方案介绍 Spark多主实例HA原理实现方案 基于社区已有的JD BCS erver基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDB CS erver服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCSer

    来自:帮助中心

    查看更多 →

  • Spark开源增强特性

    Spark开源增强特性 跨源复杂数据的SQL查询优化 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、 数据仓库 等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark

    来自:帮助中心

    查看更多 →

  • Spark2x

    Spark2x Spark2x基本原理 Spark2x多主实例 Spark2x多租户 Spark2x与其他组件的关系 Spark2x开源新特性说明 Spark跨源复杂数据的SQL查询优化 父主题: 组件介绍

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative

    来自:帮助中心

    查看更多 →

  • Spark Streaming程序

    Spark Streaming程序 场景说明 Java样例代码 Scala样例代码 父主题: 开发Spark应用

    来自:帮助中心

    查看更多 →

  • Spark应用调优

    Spark应用调优 Spark Core调优 SQL和DataFrame调优 Spark Streaming调优 Spark CBO调优 父主题: Spark应用开发常见问题

    来自:帮助中心

    查看更多 →

  • Spark Core调优

    Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优

    来自:帮助中心

    查看更多 →

  • Spark CBO调优

    。 操作步骤 Spark CBO的设计思路是,基于表和列的统计信息,对各个操作算子(Operator)产生的中间结果集大小进行估算,最后根据估算的结果来选择最优的执行计划。 设置配置项。 在“spark-defaults.conf”配置文件中增加配置项“spark.sql.cbo

    来自:帮助中心

    查看更多 →

  • Spark常用API介绍

    Spark常用API介绍 Spark Java API接口介绍 Spark Scala API接口介绍 Spark Python API接口介绍 Spark client CLI介绍 Spark JDBCServer接口介绍 父主题: Spark应用开发常见问题

    来自:帮助中心

    查看更多 →

  • 查询Spark作业日志

    设置 DLI 作业桶 查询Spark作业日志 登录DLI管理控制台,单击“作业管理 > Spark作业”。 选择待查询的Spark作业,单击操作列的“更多 > 归档日志”。 系统自动跳转至DLI作业桶日志路径下。 选择需要查看的日期,单击操作列的“下载”下载Spark日志到本地。 图3 下载Spark作业日志

    来自:帮助中心

    查看更多 →

  • 商业信息认证

    项,单击“下一步”。 《商业信息认证免责隐私声明》只需签署一次,后续进行商业信息认证时不再显示。 填写银行信息,单击“下一步”。 因国际站认证信息需使用英文输入,银行名称及分行名称,请点击输入框下方的“手动输入”填写。 银行账户名称须公司名称完全一致(对公账户名称为拼音或英文

    来自:帮助中心

    查看更多 →

  • Spark性能优化

    完美契合Hadoop生态环境,Spark应用可以运行在Standalone、Mesos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。 集群服务部署规划 服务规模业务容量参数配置对照表 Spark作为内存计算引擎,需要更多的

    来自:帮助中心

    查看更多 →

  • Spark作业开发类

    Spark作业开发类 Spark作业使用咨询 Spark如何将数据写入到DLI表中 通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库?

    来自:帮助中心

    查看更多 →

  • 通过Spark连接实例

    DeprecatedConfigParameter, ReflectionUtil} import org.apache.spark.{SparkConf, SparkEnv, SparkFiles} import org.slf4j.LoggerFactory import scala.jdk

    来自:帮助中心

    查看更多 →

  • Spark应用开发规则

    利用Scala语言开发时,应用程序结束之前必须调用SparkContext.stop()。 以Scala语言开发应用程序为例,分别介绍下正确示例错误示例。 正确示例: //提交spark作业 val sc = new SparkContext(conf) //具体的任务 ... //应用程序结束

    来自:帮助中心

    查看更多 →

  • Spark应用开发建议

    使用repartitionAndSortWithinPartitions替代repartitionsort类操作。 repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官方建议,如果需要在 repartition重分区之后,还要进行排序,

    来自:帮助中心

    查看更多 →

  • Spark常用API介绍

    Spark常用API介绍 Spark Java API接口介绍 Spark Scala API接口介绍 Spark Python API接口介绍 Spark REST API接口介绍 Spark client CLI介绍 Spark JDBCServer接口介绍 父主题: Spark应用开发常见问题

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative

    来自:帮助中心

    查看更多 →

  • Spark2x

    执行程序时引入的jackson相关包集群自带的包版本不一致,导致报错,建议使用集群自带的jackson相关jar包。 集群jar包路径:客户端安装目录/Spark2x/spark/jars”或者“客户端安装目录/Spark/spark/jars”。 Spark jar包冲突也可以参考常见jar包冲突处理方式。

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了