华为云

面向未来的智能世界,数字化是企业发展的必由之路。数字化成功的关键是以云原生的思维践行云原生,全数字化、全云化、AI驱动,一切皆服务。

华为云将持续创新,携手客户、合作伙伴和开发者,致力于让云无处不在,让智能无所不及,共建智能世界云底座。

 
 

    华为云与spark 更多内容
  • Spark Doris Connector

    支持在Doris端完成数据过滤,减少数据传输量。 前提条件 已创建包含Doris服务的集群,集群内各服务运行正常。 待连接Doris数据库的节点 MRS 集群网络互通。 创建具有Doris管理权限的用户。 集群已启用Kerberos认证(安全模式) 在 FusionInsight Mana

    来自:帮助中心

    查看更多 →

  • Spark SQL join优化

    = B.name; 一个表大于阈值一个表小于阈值。 将小表进行BroadCast操作。 两个表的大小都大于阈值。 比较查询所涉及的字段大小阈值的大小。 如果某表中涉及字段的大小小于阈值,将该表相应数据进行广播。 如果两表中涉及字段的大小都大于阈值,则不进行广播。 (可选)如下两

    来自:帮助中心

    查看更多 →

  • Spark SQL join优化

    广播。 参见https://spark.apache.org/docs/latest/sql-programming-guide.html 配置自动广播阈值的方法: 在Spark的配置文件“spark-defaults.conf”中,设置“spark.sql.autoBroadc

    来自:帮助中心

    查看更多 →

  • 通过Spark连接实例

    DeprecatedConfigParameter, ReflectionUtil} import org.apache.spark.{SparkConf, SparkEnv, SparkFiles} import org.slf4j.LoggerFactory import scala.jdk

    来自:帮助中心

    查看更多 →

  • Spark作业管理

    Spark作业管理 Spark作业管理概述 创建Spark作业 父主题: 作业管理

    来自:帮助中心

    查看更多 →

  • Spark作业使用咨询

    Studio服务进行作业开发请参考《 数据治理中心 用户指南》。 Spark SQL语法创建表时是否支持定义主键 Spark SQL语法不支持定义主键。 DLI Spark jar作业是否能访问DWS跨源表? 可以访问。 详细操作请参考访问DWS和访问SQL库表。 如何查看Spark内置依赖包的版本? DLI内置依

    来自:帮助中心

    查看更多 →

  • 前提条件

    ) 建立连接器连接 客户企业微信认证一致的域名 客户 注册单个域名操作指导_ 域名注册服务 Domains_用户指南_域名注册管理_华为云 (huaweicloud.com) 用绑定 集成工作台 企业微信集成 域名绑定的ssl证书 客户 用绑定集成工作台企业微信集成 父主题:

    来自:帮助中心

    查看更多 →

  • 上报Spark任务id

    v1.0/analysis/task/sparkid { "taskId":"xxxx", "sparkId":"xxx" } 参数说明 参数名 类型 备注 taskId String 任务ID。 sparkId String Spark任务ID。 响应 响应样例 { "success":

    来自:帮助中心

    查看更多 →

  • Spark任务提交失败

    Spark任务提交失败 问题现象 Spark提交任务直接提示无法提交任务。 Spark提示无法获取到yarn的相关jar包。 提示多次提交一个文件。 原因分析 问题1: 最常见的无法提交任务原因是认证失败, 还有可能是参数设置不正确。 问题2: 集群默认会把分析节点的hadoop

    来自:帮助中心

    查看更多 →

  • Spark CBO调优

    。 操作步骤 Spark CBO的设计思路是,基于表和列的统计信息,对各个操作算子(Operator)产生的中间结果集大小进行估算,最后根据估算的结果来选择最优的执行计划。 设置配置项。 在“spark-defaults.conf”配置文件中增加配置项“spark.sql.cbo

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative

    来自:帮助中心

    查看更多 →

  • Spark Streaming程序

    Spark Streaming程序 场景说明 Java样例代码 Scala样例代码 父主题: 开发程序

    来自:帮助中心

    查看更多 →

  • Spark Core调优

    Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: 调优程序

    来自:帮助中心

    查看更多 →

  • Spark Core调优

    Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark2x性能调优

    来自:帮助中心

    查看更多 →

  • Spark HA方案介绍

    Spark HA方案介绍 Spark多主实例HA原理实现方案 基于社区已有的JD BCS erver基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDB CS erver服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCSer

    来自:帮助中心

    查看更多 →

  • Spark开源增强特性

    Spark开源增强特性 跨源复杂数据的SQL查询优化 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、 数据仓库 等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark

    来自:帮助中心

    查看更多 →

  • Spark2x

    Spark2x Spark2x基本原理 Spark2x HA方案介绍 Spark2x与其他组件的关系 Spark2x开源增强特性 父主题: 组件介绍

    来自:帮助中心

    查看更多 →

  • Spark作业相关API

    Spark作业相关API 创建批处理作业 查询批处理作业列表 查询批处理作业详情 查询批处理作业状态 取消批处理作业

    来自:帮助中心

    查看更多 →

  • 查询DLI Spark作业

    -i / --job-id String 否 查询指定DLI Spark作业ID的任务详情。 -n / --job-name String 否 查询指定作业名称的DLI Spark作业或根据作业名称关键字过滤DLI Spark作业。 -pn / --page-num Int 否 作业索引页,默认是第1页。

    来自:帮助中心

    查看更多 →

  • 停止DLI Spark作业

    停止DLI Spark作业 执行ma-cli dli-job stop命令停止DLI Spark作业。 $ ma-cli dli-job stop -h Usage: ma-cli dli-job stop [OPTIONS] Stop DLI spark job by job

    来自:帮助中心

    查看更多 →

  • Spark on Hudi开发规范

    Spark on Hudi开发规范 开发规范 资源配置 Spark On Hudi性能调优 父主题: Hudi

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了