华为云开发者学堂 

华为官方云计算技术培训学习平台,致力于打造精品课程,在线实验,考试及认证一站式云计算技术人才培训平台,打造了“学、练、考、证”一站式学习与体验平台,为用户提供架构完整、内容丰富、形式多样的课程、实验、微认证、职业认证、培训专业服务。


    spark培训 更多内容
  • Spark任务提交失败

    Spark任务提交失败 问题现象 Spark提交任务直接提示无法提交任务。 Spark提示无法获取到yarn的相关jar包。 提示多次提交一个文件。 原因分析 问题1: 最常见的无法提交任务原因是认证失败, 还有可能是参数设置不正确。 问题2: 集群默认会把分析节点的hadoop

    来自:帮助中心

    查看更多 →

  • Spark运维管理

    Spark运维管理 快速配置参数 常用参数 Spark2x日志介绍 调整Spark日志级别 配置WebUI上查看Container日志 获取运行中Spark应用的Container日志 配置Spark Eventlog日志回滚 配置WebUI上显示的Lost Executor信息的个数

    来自:帮助中心

    查看更多 →

  • 查询Spark作业日志

    设置 DLI 作业桶 查询Spark作业日志 登录DLI管理控制台,单击“作业管理 > Spark作业”。 选择待查询的Spark作业,单击操作列的“更多 > 归档日志”。 系统自动跳转至DLI作业桶日志路径下。 选择需要查看的日期,单击操作列的“下载”下载Spark日志到本地。 图3 下载Spark作业日志

    来自:帮助中心

    查看更多 →

  • Spark HA方案介绍

    zooKeeperNamespace=sparkthriftserver2x;saslQop=auth-conf;auth=KERBEROS;principal=spark/hadoop.<系统 域名 >@<系统域名>;' 父主题: Spark

    来自:帮助中心

    查看更多 →

  • Spark开源增强特性

    Spark开源增强特性 跨源复杂数据的SQL查询优化 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、 数据仓库 等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark

    来自:帮助中心

    查看更多 →

  • Spark2x

    Spark2x Spark2x基本原理 Spark2x HA方案介绍 Spark2x与其他组件的关系 Spark2x开源增强特性 父主题: 组件介绍

    来自:帮助中心

    查看更多 →

  • Spark运维管理

    Spark运维管理 快速配置Spark参数 Spark常用配置参数 Spark日志介绍 获取运行中Spark应用的Container日志 调整Spark日志级别 配置WebUI上查看Container日志 配置WebUI上显示的Lost Executor信息的个数 配置JobHistory本地磁盘缓存

    来自:帮助中心

    查看更多 →

  • Spark使用说明

    Spark使用说明 MRS 3.3.0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。 相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 Spark是一个开源的,并行数据处理框架

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    并支持多种外部输入。 Apache Spark部件架构如图1所示。本文档重点介绍SparkSpark SQL和Spark Streaming应用开发指导。MLlib和GraghX的详细指导请参见Spark官方网站:http://spark.apache.org/docs/2.2

    来自:帮助中心

    查看更多 →

  • Spark Streaming程序

    Spark Streaming程序 场景说明 Java样例代码 Scala样例代码 父主题: 开发Spark应用

    来自:帮助中心

    查看更多 →

  • Spark应用调优

    Spark应用调优 Spark Core调优 SQL和DataFrame调优 Spark Streaming调优 Spark CBO调优 父主题: Spark应用开发常见问题

    来自:帮助中心

    查看更多 →

  • Spark Core调优

    Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优

    来自:帮助中心

    查看更多 →

  • Spark CBO调优

    。 操作步骤 Spark CBO的设计思路是,基于表和列的统计信息,对各个操作算子(Operator)产生的中间结果集大小进行估算,最后根据估算的结果来选择最优的执行计划。 设置配置项。 在“spark-defaults.conf”配置文件中增加配置项“spark.sql.cbo

    来自:帮助中心

    查看更多 →

  • 调测Spark应用

    调测Spark应用 在本地Windows环境中调测Spark应用 在Linux环境中调测Spark应用 父主题: Spark2x开发指南(安全模式)

    来自:帮助中心

    查看更多 →

  • Spark常用API介绍

    Spark常用API介绍 Spark Java API接口介绍 Spark Scala API接口介绍 Spark Python API接口介绍 Spark client CLI介绍 Spark JD BCS erver接口介绍 父主题: Spark应用开发常见问题

    来自:帮助中心

    查看更多 →

  • Spark应用开发规则

    org.apache.spark.SparkContext // RDD操作时引入的类。 import org.apache.spark.SparkContext._ // 创建SparkConf时引入的类。 import org.apache.spark.SparkConf 分布式模

    来自:帮助中心

    查看更多 →

  • Spark应用开发建议

    在对性能要求比较高的场景下,可以使用Kryo优化序列化性能 Spark提供了两种序列化实现: org.apache.spark.serializer.KryoSerializer:性能好,兼容性差 org.apache.spark.serializer.JavaSerializer:性能一般,兼容性好

    来自:帮助中心

    查看更多 →

  • Spark性能优化

    Spark性能优化 概述 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去

    来自:帮助中心

    查看更多 →

  • Spark SQL join优化

    配置为-1时,将不进行广播。 配置自动广播阈值的方法: 在Spark的配置文件“spark-defaults.conf”中,设置“spark.sql.autoBroadcastJoinThreshold”的值。 spark.sql.autoBroadcastJoinThreshold

    来自:帮助中心

    查看更多 →

  • Spark shuffle异常处理

    Spark shuffle异常处理 问题 在部分场景Spark shuffle阶段会有如下异常 解决方法 JDBC应该: 登录 FusionInsight Manager管理界面,修改JDB CS erver的参数“spark.authenticate.enableSaslEncryp

    来自:帮助中心

    查看更多 →

  • Spark作业相关问题

    Spark作业相关问题 使用咨询 作业开发 作业运维报错 运维指导

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了