数据湖探索 DLI

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值

 
进入控制台立即购买帮助文档DLI开发者社区1对1咨询                
               

           

    云服务器 spark 更多内容
  • Spark2x

    Spark2x Spark2x基本原理 Spark2x HA方案介绍 Spark2x与其他组件的关系 Spark2x开源增强特性 父主题: 组件介绍

    来自:帮助中心

    查看更多 →

  • Spark作业相关API

    Spark作业相关API 创建批处理作业 查询批处理作业列表 查询批处理作业详情 查询批处理作业状态 取消批处理作业

    来自:帮助中心

    查看更多 →

  • Spark运维管理

    Spark运维管理 快速配置参数 常用参数 Spark2x日志介绍 调整Spark日志级别 配置WebUI上查看Container日志 获取运行中Spark应用的Container日志 配置Spark Eventlog日志回滚 配置WebUI上显示的Lost Executor信息的个数

    来自:帮助中心

    查看更多 →

  • 调测Spark应用

    调测Spark应用 在本地Windows环境中调测Spark应用 在Linux环境中调测Spark应用 父主题: Spark2x开发指南(安全模式)

    来自:帮助中心

    查看更多 →

  • Spark应用开发简介

    并支持多种外部输入。 Apache Spark部件架构如图1所示。本文档重点介绍SparkSpark SQL和Spark Streaming应用开发指导。MLlib和GraghX的详细指导请参见Spark官方网站:http://spark.apache.org/docs/2.2

    来自:帮助中心

    查看更多 →

  • Spark Streaming程序

    Spark Streaming程序 场景说明 Java样例代码 Scala样例代码 父主题: 开发Spark应用

    来自:帮助中心

    查看更多 →

  • Spark应用调优

    Spark应用调优 Spark Core调优 SQL和DataFrame调优 Spark Streaming调优 Spark CBO调优 父主题: Spark应用开发常见问题

    来自:帮助中心

    查看更多 →

  • Spark Core调优

    Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优

    来自:帮助中心

    查看更多 →

  • Spark CBO调优

    。 操作步骤 Spark CBO的设计思路是,基于表和列的统计信息,对各个操作算子(Operator)产生的中间结果集大小进行估算,最后根据估算的结果来选择最优的执行计划。 设置配置项。 在“spark-defaults.conf”配置文件中增加配置项“spark.sql.cbo

    来自:帮助中心

    查看更多 →

  • Spark常用API介绍

    Spark常用API介绍 Spark Java API接口介绍 Spark Scala API接口介绍 Spark Python API接口介绍 Spark client CLI介绍 Spark JD BCS erver接口介绍 父主题: Spark应用开发常见问题

    来自:帮助中心

    查看更多 →

  • Spark组件对接OBS

    </property> 执行以下命令修改Spark客户端配置文件目录下的“spark-defaults.conf”,添加“spark.sql.warehouse.location.first = true”配置。 vi Spark/spark/conf/spark-defaults.conf

    来自:帮助中心

    查看更多 →

  • 使用Livy提交Spark Jar作业

    明请参考Spark Configuration。 表2 spark-defaults.conf可选参数说明 Spark作业参数 对应Spark批处理参数 备注 spark.dli.user.file file 如果是对接notebook工具场景时不需要设置。 spark.dli.user

    来自:帮助中心

    查看更多 →

  • 配置Windows通过EIP访问集群Spark

    </dependency> 运行样例代码前,对SparkSession加入.master("local").config("spark.driver.host", "localhost"),配置Spark为本地运行模式。 父主题: 在本地Windows环境中调测Spark应用

    来自:帮助中心

    查看更多 →

  • DIS Spark Streaming概述

    DIS Spark Streaming概述 DIS Spark Streaming是 数据接入服务 (DIS)提供的一个sdk,支持将DIS作为数据源创建DStream对接SparkStreaming。dis-spark-streaming使用流程如图1所示。 图1 DIS Spark

    来自:帮助中心

    查看更多 →

  • SparkRTC Demo怎么体验?

    SparkRTC Demo怎么体验? 您可以提交工单联系华为云技术客服,获取各平台对应的Demo进行体验。 父主题: 产品咨询

    来自:帮助中心

    查看更多 →

  • 查看Spark任务日志失败

    查看目录下是否有对应的appid文件(Spark的eventlog存放目录: MRS 3.x及以后版本的目录是hdfs://hacluster/spark2xJobHistory2x,MRS 3.x以前版本的目录是hdfs://hacluster/sparkJobHistory,任务运行日

    来自:帮助中心

    查看更多 →

  • Spark连接Kafka认证错误

    Spark连接Kafka认证错误 问题现象 MRS 2.1.0版本集群中Spark消费kafka数据,过一天以后就会出现认证失败的报错: 原因分析 集群版本和运行的程序包版本不匹配。 处理步骤 参考运行Spark Streaming 对接Kafka0-10样例程序进行相关配置。 当前集群为MRS

    来自:帮助中心

    查看更多 →

  • Spark作业管理概述

    Spark作业管理概述 DLI 在开源Spark基础上进行了大量的性能优化与服务化改造,兼容Apache Spark生态和接口,执行批处理任务。 DLI还支持使用Spark作业访问DLI元数据,具体请参考《 数据湖探索 开发指南》。 Spark作业管理主要包括如下功能: 创建Spark作业

    来自:帮助中心

    查看更多 →

  • 配置Spark Core广播变量

    配置Spark Core广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。

    来自:帮助中心

    查看更多 →

  • 创建并提交Spark作业

    创建并提交Spark作业 场景描述 本章节指导用户通过API创建并提交Spark作业。 约束限制 新队列第一次运行作业时,需要一定的时间,通常为6~10分钟。 涉及接口 创建队列:创建队列。 上传分组资源:上传Spark作业所需的资源包。 查询组内资源包:确认上传的资源包是否正确。

    来自:帮助中心

    查看更多 →

  • pyspark样例代码

    print_function from pyspark.sql import SparkSession if __name__ == "__main__": # Create a SparkSession session. sparkSession = SparkSession.builder

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了